深度 Q 网络 (Deep Q-Network, DQN) 是一种基于深度学习的强化学习算法,由 DeepMind 于 2015 年提出,是首个成功将深度学习应用于强化学习的算法。

DQN 也可能指使用用于近似价值函数的神经网络。但是一般 (以及本文中) 用它来指代 DeepMind 在 2015 年提出的这一算法。

DQN 使用一个深度神经网络来近似最优动作价值函数 ,使用 TD 损失来进行梯度优化,并通过经验回放目标网络来提高训练的稳定性。

具体来说,将价值网络和目标网络参数分别记为 , 在每一个 episode 中,DQN:

  1. 使用价值函数导出的 ε-贪心策略与环境进行交互,收集经验 (称为转移, transition)
  2. 将转移存储在经验回放缓冲区中
  3. 从经验回放缓冲区中随机采样一批转移 (称为 minibatch)
  4. 对于每个转移 ,
  5. 计算 TD 损失 并更新神经网络参数
  6. 步,