SARSA

SARSA 是一种经典的 TD 算法。SARSA 是 state-action-reward-state-action 的缩写，原因是它使用 $(s_{t}, a_{t}, r_{t}, s_{t + 1}, a_{t + 1})$ 这样的五元组来进行更新。

SARSA 的 TD 目标

SARSA 可以由下面的贝尔曼方程推导出来：

Q_{π} (s_{t}, a_{t}) = E_{S_{t + 1}, A_{t + 1}} [R_{t} + γ \cdot Q_{π} (S_{t + 1}, A_{t + 1}) ∣ S_{t} = s_{t}, A_{t} = a_{t}]

对方程两边作近似：

使用函数估计器 $q$ (表格或神经网络) 来估计 $Q_{π}$
将期望近似为抽样。具体来说，给定当前状态 $s_{t}$ 和动作 $a_{t}$ ，我们可以通过执行动作 $a_{t}$ 来获得奖励 $r_{t}$ 和下一个状态 $s_{t + 1}$ ，然后基于 $s_{t + 1}$ 抽样得到新动作 $\tilde{a}_{t + 1} \sim π (\cdot ∣ s_{t + 1})$ ，得到 $r_{t} + γ Q_{π} (s_{t + 1}, \tilde{a}_{t + 1}) \approx r_{t} + γ q (s_{t + 1}, \tilde{a}_{t + 1})$

于是我们得到 SARSA 的 TD 目标：

\overset{y}{^}_{t} = r_{t} + γ q (s_{t + 1}, \tilde{a}_{t + 1})

更新规则

$q (s_{t}, a_{t})$ 和 $\overset{y}{^}_{t}$ 都是对于 $Q_{π} (s_{t}, a_{t})$ 的估计，但是 $\overset{y}{^}_{t}$ 是一个更好的估计，因为它使用了更多的信息。所以我们鼓励函数估计器去逼近 $\overset{y}{^}_{t}$ 。

对于学习率为 $α$ 的表格型 SARSA：

q (s_{t}, a_{t}) = (1 - α) q (s_{t}, a_{t}) + α \overset{y}{^}_{t}

对于学习率为 $α$ 的使用神经网络 (参数记为 $w$ ) 的 SARSA：

L (w) Δ_{w} L (w) w = \frac{1}{2} [q (s_{t}, a_{t}; w) - \overset{y}{^}_{t}]^{2} = (q (s_{t}, a_{t}; w) - \overset{y}{^}_{t}) \nabla_{w} q (s_{t}, a_{t}; w) \leftarrow w - α (q (s_{t}, a_{t}; w) - \overset{y}{^}_{t}) \nabla_{w} q (s_{t}, a_{t}; w)

训练流程

将函数估计器设为 $q_{now}$ ，当前策略为 $π_{now}$

观察当前状态 $s_{t}$
根据当前策略 $π_{now}$ 采样动作 $a_{t} \sim π_{now} (\cdot ∣ s_{t})$
计算 $\overset{q}{^}_{t} = q_{now} (s_{t}, a_{t})$
执行动作 $a_{t}$ ，观察奖励 $r_{t}$ 和下一个状态 $s_{t + 1}$
根据当前策略 $π_{now}$ 采样动作 $\tilde{a}_{t + 1} \sim π_{now} (\cdot ∣ s_{t + 1})$
计算 $\overset{q}{^}_{t + 1} = q_{now} (s_{t + 1}, \tilde{a}_{t + 1})$
计算 TD 目标 $\overset{y}{^}_{t} = r_{t} + γ \overset{q}{^}_{t + 1}$
按照更新规则更新函数估计器 $q_{now}$
更新策略，注意策略的生成方式与 SARSA 无关

强化学习笔记

探索

SARSA

SARSA 的 TD 目标

更新规则

训练流程

关系图谱

目录

反向链接