Advantage Actor-Critic (A2C)

Advantage Actor-Critic (A2C) 是 actor-critic 算法的带基线的版本。它包括一个 actor $π (a ∣ s; θ)$ 和一个 critic $v (s; w)$ ，其中 $θ$ 和 $w$ 分别是 actor 和 critic 的参数。它基于随机策略梯度 $\hat{g} (s, a; θ) = [Q_{π} (s, a) - V_{π} (s)] \cdot \nabla_{θ} ln π (a ∣ s; θ)$ 进行训练。

它的训练流程为：

基于当前状态 $s_{t}$ ，actor 选择动作 $a_{t} \sim π (\cdot ∣ s_{t}; θ_{now})$ 并执行
观察奖励 $r_{t}$ 和下一个状态 $s_{t + 1}$
使用 critic 估计 $\overset{v}{^}_{t} = v (s_{t}; w_{now})$ 和 $\overset{v}{^}_{t + 1} = v (s_{t + 1}; w_{now})$
计算 TD 误差 $δ_{t} = \overset{v}{^}_{t} - r_{t} - γ \overset{v}{^}_{t + 1}$
更新 critic: $w_{new} \leftarrow w_{now} - α δ_{t} \nabla_{w} v (s_{t}; w_{now})$
更新 actor: $θ_{new} \leftarrow θ_{now} - β δ_{t} \nabla_{θ} ln π (a_{t} ∣ s_{t}; θ_{now})$

因为 $Q (s_{t}, a_{t}) = r_{t} + γV (s_{t + 1})$ ，所以优势 $A (s_{t}, a_{t}) = Q (s_{t}, a_{t}) - V (s_{t}) = - δ_{t}$ ，这使得 A2C 不需要额外的 Q 网络。

和 actor-critic 类似，A2C 也面临自举导致的偏差问题，可以在 critic 上使用目标网络来缓解。

强化学习笔记

探索

Advantage Actor-Critic (A2C)

关系图谱

反向链接