策略梯度定理给出:

基于策略梯度的 REINFORCEactor-critic 算法在实践中往往效果不佳,但是只需把上面式子中的 替换成 ,就可以得到更好的性能。其中 是任意不依赖于 的函数,通常使用状态价值函数 ,此时 其实就是 下的优势函数

时,。对于其他不依赖于 的函数 ,则可以证明带基线的策略梯度定理。

尽管 不影响 ,但是会影响方差

因此,适当的 可以减小随机梯度的方差。