actor-critic 是基于策略梯度定理的强化学习算法。它使用神经网络近似

actor-critic 使用价值网络 (被称为 critic) 近似 ,其中 是价值网络的参数。与此相对,策略网络 被称为 actor。于是近似策略梯度被写为:

critic 在训练过程中打出的分数会越来越高,因为

critic 可以使用 SARSA 进行训练,而 actor 则使用策略梯度方法训练。具体的训练流程为:

  1. 基于当前状态 ,actor 选择动作 并执行
  2. 观察奖励 和下一个状态
  3. 决策 不执行
  4. 使用 critic 估计
  5. 计算 TD 误差
  6. 更新 critic:
  7. 更新 actor:

SARSA 类似,actor-critic 也面临自举导致的偏差问题,可以在 critic 上使用目标网络来缓解。