基线

策略梯度定理给出:

\nabla_{θ} J (θ) = E_{S} [E_{A \sim π_{θ} (\cdot ∣ S; θ)} [Q_{π_{θ}} (S, A) \cdot \nabla_{θ} ln π_{θ} (A ∣ S; θ)]]

基于策略梯度的 REINFORCE 和 actor-critic 算法在实践中往往效果不佳，但是只需把上面式子中的 $Q_{π_{θ}} (S, A)$ 替换成 $Q_{π_{θ}} (S, A) - b$ ，就可以得到更好的性能。其中 $b$ 是任意不依赖于 $A$ 的函数，通常使用状态价值函数 $V_{π_{θ}} (S)$ ，此时 $Q_{π_{θ}} (S, A) - V_{π_{θ}} (S)$ 其实就是 $S, A$ 下的优势函数。

$b = 0$ 或 $b = V_{π_{θ}} (S)$ 时， $E_{S} [E_{A \sim π_{θ} (\cdot ∣ S; θ)} [b \cdot \nabla_{θ} ln π_{θ} (A ∣ S; θ)]] = 0$ 。对于其他不依赖于 $A$ 的函数 $b$ ，则可以证明带基线的策略梯度定理。

尽管 $b$ 不影响 $E_{S, A} [g (S, A; θ)]$ ，但是会影响方差

Var [g (S, A; θ)] = E_{S, A} [∣∣ g (S, A; θ) - \nabla_{θ} J (θ) ∣ ∣^{2}]

因此，适当的 $b$ 可以减小随机梯度的方差。

强化学习笔记

探索

基线

关系图谱

反向链接