REINFORCE 是基于策略梯度定理的策略网络训练算法。它使用蒙特卡洛方法近似 ,把它替换成回报

不带基线的 REINFORCE

它的训练流程如下:

  1. 用策略网络 控制智能体进行一个 episode 的采样,得到轨迹
  2. 计算回报
  3. 计算梯度
  4. 进行梯度更新

带基线的 REINFORCE

基线的 REINFORCE 需要额外训练一个价值网络 ,用于估计状态价值 。它的训练流程如下:

  1. 用策略网络 控制智能体进行一个 episode 的采样,得到轨迹
  2. 计算回报
  3. 使用价值网络进行预测
  4. 计算预测误差
  5. 更新价值网络
  6. 计算梯度
  7. 更新策略网络