贝尔曼方程

贝尔曼方程 (Bellman Equation) 描述了动作价值函数的递归关系。

假设 $R_{t}$ 是 $S_{t}, A_{t}, S_{t + 1}$ 的函数。那么

Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot Q_{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]

通过 $Q, V$ 之间的关系，我们可以得到贝尔曼方差的其他两种形式：

Q_{π} (s_{t}, a_{t}) V_{π} (s_{t}) = E_{S_{t + 1}} [R_{t} + γ \cdot V_{π} (S_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}] = E_{A_{t}, S_{t + 1}} [R_{t} + γ \cdot V_{π} (S_{t + 1}) ∣ S_{t} = s_{t}]

贝尔曼方程的证明

Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}} [U_{t} ∣ S_{t} = s_{t}, A_{t} = a_{t}] = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot U_{t + 1} ∣ S_{t} = s_{t}, A_{t} = a_{t}] = E_{S_{t + 1}, A_{t + 1}} [R_{t} ∣ S_{t} = s_{t}, A_{t} = a_{t}] + γ \cdot E_{S_{t + 1}, A_{t + 1}} [U_{t + 1} ∣ S_{t} = s_{t}, A_{t} = a_{t}]

分析第二项， $U_{t + 1}$ 的期望可以写成

= = E_{S_{t + 1}, A_{t + 1}} [U_{t + 1} ∣ S_{t} = s_{t}, A_{t} = a_{t}] E_{S_{t + 1}, A_{t + 1}} [E_{S_{t + 2}, A_{t + 2}} [U_{t + 1} ∣ S_{t + 1}, A_{t + 1}] ∣ S_{t} = s_{t}, A_{t} = a_{t}] E_{S_{t + 1}, A_{t + 1}} [Q_{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]

综上所述，我们得到

Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot Q_{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]

假设 $R_{t}$ 是 $S_{t}, A_{t}, S_{t + 1}$ 的函数。那么

Q_{*} (s_{t}, a_{t}) = E_{S_{t + 1} \sim p (∣ s_{t}, a_{t})} [R_{t} + γ \cdot A \in A max Q_{*} (S_{t + 1}, A) ∣ S_{t} = s_{t}, A_{t} = a_{t}]

设最优策略函数为 $π^{*} = ar g max_{π} Q_{π} (s, a), \forall s \in S, a \in A$ 。由贝尔曼方程可得：

Q_{π^{*}} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot Q_{π^{*}} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]

根据定义，最优动作价值函数是

Q_{*} (s, a) ≜ π max Q_{π} (s, a), \forall s \in S, a \in A

所以 $Q_{π^{*}} (s, a)$ 就是 $Q_{*} (s, a)$ 。于是

Q_{*} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot Q_{*} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]

因为动作 $A_{t + 1} = ar g max_{A} Q_{*} (S_{t + 1}, A)$ 是状态 $S_{t + 1}$ 的确定性函数，所以

Q_{*} (s_{t}, a_{t}) = E_{S_{t + 1}} [R_{t} + γ \cdot A \in A max Q_{*} (S_{t + 1}, A) ∣ S_{t} = s_{t}, A_{t} = a_{t}]