Advantage Actor-Critic (A2C) 是 actor-critic 算法的带基线的版本。它包括一个 actor 和一个 critic ,其中 分别是 actor 和 critic 的参数。它基于随机策略梯度 进行训练。

它的训练流程为:

  1. 基于当前状态 ,actor 选择动作 并执行
  2. 观察奖励 和下一个状态
  3. 使用 critic 估计
  4. 计算 TD 误差
  5. 更新 critic:
  6. 更新 actor:

因为 ,所以优势 ,这使得 A2C 不需要额外的 Q 网络。

actor-critic 类似,A2C 也面临自举导致的偏差问题,可以在 critic 上使用目标网络来缓解。