贝尔曼方程 (Bellman Equation) 描述了动作价值函数的递归关系。

贝尔曼方程

假设 的函数。那么

通过 之间的关系,我们可以得到贝尔曼方差的其他两种形式:

贝尔曼方程的证明

分析第二项, 的期望可以写成

综上所述,我们得到

最优贝尔曼方程

假设 的函数。那么

最优贝尔曼方程的证明

设最优策略函数为 。由贝尔曼方程可得:

根据定义,最优动作价值函数是

所以 就是 。于是

因为动作 是状态 的确定性函数,所以