深度 Q 网络 (Deep Q-Network, DQN) 是一种基于深度学习的强化学习算法,由 DeepMind 于 2015 年提出,是首个成功将深度学习应用于强化学习的算法。
DQN 也可能指使用用于近似价值函数的神经网络。但是一般 (以及本文中) 用它来指代 DeepMind 在 2015 年提出的这一算法。
DQN 使用一个深度神经网络来近似最优动作价值函数 ,使用 TD 损失来进行梯度优化,并通过经验回放和目标网络来提高训练的稳定性。
具体来说,将价值网络和目标网络参数分别记为 , 在每一个 episode 中,DQN: