策略梯度定理给出:
基于策略梯度的 REINFORCE 和 actor-critic 算法在实践中往往效果不佳,但是只需把上面式子中的 替换成 ,就可以得到更好的性能。其中 是任意不依赖于 的函数,通常使用状态价值函数 ,此时 其实就是 下的优势函数。
或 时,。对于其他不依赖于 的函数 ,则可以证明带基线的策略梯度定理。
尽管 不影响 ,但是会影响方差
因此,适当的 可以减小随机梯度的方差。
策略梯度定理给出:
基于策略梯度的 REINFORCE 和 actor-critic 算法在实践中往往效果不佳,但是只需把上面式子中的 替换成 ,就可以得到更好的性能。其中 是任意不依赖于 的函数,通常使用状态价值函数 ,此时 其实就是 下的优势函数。
或 时,。对于其他不依赖于 的函数 ,则可以证明带基线的策略梯度定理。
尽管 不影响 ,但是会影响方差
因此,适当的 可以减小随机梯度的方差。