强化学习笔记

❯

❯

深度 Q 网络 (DQN)

深度 Q 网络 (DQN)

2024年7月04日2分钟阅读

model-free
off-policy
value-iteration
online

深度 Q 网络 (Deep Q-Network, DQN) 是一种基于深度学习的强化学习算法，由 DeepMind 于 2015 年提出，是首个成功将深度学习应用于强化学习的算法。

DQN 也可能指使用用于近似价值函数的神经网络。但是一般 (以及本文中) 用它来指代 DeepMind 在 2015 年提出的这一算法。

DQN 使用一个深度神经网络来近似最优动作价值函数 $Q_{*} (s, a)$ ，使用 TD 损失来进行梯度优化，并通过经验回放和目标网络来提高训练的稳定性。

具体来说，将价值网络和目标网络参数分别记为 $θ, θ^{-}$ , 在每一个 episode 中，DQN:

使用价值函数导出的 ε-贪心策略与环境进行交互，收集经验 (称为转移, transition) $(s_{t}, a_{t}, r_{t}, s_{t + 1})$
将转移存储在经验回放缓冲区中
从经验回放缓冲区中随机采样一批转移 (称为 minibatch)
对于每个转移 $j$ , $\overset{y}{^}_{j} = {r_{j} r_{j} + γ max_{a^{'}} \hat{Q} (s_{j + 1}, a^{'}; θ^{-}) 如果 episode 在 j 步结束否则$
计算 TD 损失 $(\overset{y}{^}_{j} - \hat{Q} (s_{j}, a_{j}; θ))$ 并更新神经网络参数
每 $C$ 步， $θ^{-} \leftarrow θ$

关系图谱

反向链接

经验回放
噪声网络
目标网络
对决网络

Created with Quartz v4.4.0 © 2025

GitHub