Advantage Actor-Critic (A2C) 是 actor-critic 算法的带基线的版本。它包括一个 actor 和一个 critic ,其中 和 分别是 actor 和 critic 的参数。它基于随机策略梯度 进行训练。
它的训练流程为:
- 基于当前状态 ,actor 选择动作 并执行
- 观察奖励 和下一个状态
- 使用 critic 估计 和
- 计算 TD 误差
- 更新 critic:
- 更新 actor:
因为 ,所以优势 ,这使得 A2C 不需要额外的 Q 网络。
和 actor-critic 类似,A2C 也面临自举导致的偏差问题,可以在 critic 上使用目标网络来缓解。