时序差分

时序差分 (Temporal Difference, TD) 是强化学习中的一个重要概念，常见于 “TD 算法”、“TD 误差”、“TD 目标” 等名词中。

TD 目标

假设模型 (通过某种初始化) 估计从北京到上海一共需要 $\overset{q}{^} = 14$ 小时，从济南到上海估计需要 $\overset{q}{^}^{'} = 11$ 小时。智能体实际上花费了 $r = 4.5$ 小时从北京到济南。即使智能体没有继续从济南到上海，这一信息也能用于模型的更新。模型对北京到上海的预计总用时可以被更新为 $\overset{y}{^} = r + \overset{q}{^}^{'} = 15.5$ 小时。

这里 $\overset{y}{^}$ 被称为 TD 目标 (TD target)，它比最初的预测 $\overset{q}{^}$ 更加可靠。它被形式化地定义为：

\overset{y}{^} = r_{t} + γ \cdot Q (s_{t + 1}, a_{t + 1})

TD 误差和 TD 损失

我们可以使用 $\overset{y}{^}$ 对模型做修正。假设模型使用 $w$ 参数化，最初的估计值记为 $\overset{q}{^} = Q (北京, 上海; w)$ ，使用 TD 损失 (TD loss) 作为损失函数：

L (w) = \frac{1}{2} [Q (北京, 上海; w) - \overset{y}{^}]^{2}

$\overset{y}{^}$ 实际上是 $w$ 的函数，但是我们不会让它参与梯度计算

计算损失函数的梯度得到

\nabla_{w} L (w) = δ \cdot \nabla_{w} Q (北京, 上海; w)

其中 $δ = \overset{q}{^} - \overset{y}{^}$ 称为 TD 误差 (TD error)。我们可以用 TD 误差来对神经网络进行更新：

w \leftarrow w - a \cdot δ \cdot \nabla_{w} Q (北京, 上海; w)

这样的学习方式被称为 TD 学习 (TD learning) 或者 TD 算法。

自举与蒙特卡洛

在训练模型时，如果将一个 episode 进行到底，观察所有奖励并进行网络更新 (即在前面的例子中完整地从北京走到上海) ，这种方法被称为蒙特卡洛 (Monte Carlo) 方法，即完整地计算回报 $U_{t}$ ，用它去近似它的期望 $Q_{π} (s_{t}, a_{t})$ 。蒙特卡洛方法的好处是无偏性；坏处是其随机性高，方差大，收敛较慢。

而 TD 方法是自举 (bootstrapping) 方法，即使用模型的估计值来更新自身。TD 方法的好处是随机性只来自 $s_{t}, a_{t}$ , 方差小，收敛较快；坏处是有偏差，因为模型自身的估计可能有偏差。

多步 TD

上面的 TD 目标只使用一个奖励，这样得到的 $\overset{y}{^}$ 是单步 TD 目标。多步 TD 目标 (multi-step TD target) 使用多个奖励，可以视作是单步 TD 目标的推广。

假设 episode 长度为 $n$ , 分别写出 $t, t + m$ 时刻的折扣回报：

U_{t} = U_{t + m} = r_{t} + γ r_{t + 1} + γ^{2} r_{t + 2} + \dots + γ^{n - t} r_{n} r_{t + m} + γ r_{t + m + 1} + γ^{2} r_{t + m + 2} + \dots + γ^{n - t} r_{n}

于是有

U_{t} = (i = 0 \sum m - 1 γ^{i} r_{t + i}) + γ^{m} U_{t + m}

等式两边关于 $s_{t + 1}, a_{t + 1}, ..., s_{t + m}, a_{t + m}$ 取期望得到

Q_{π} (s_{t}, a_{t}) = E [(i = 0 \sum m - 1 γ^{i} r_{t + i}) + γ^{m} Q_{π} (s_{t + m}, a_{t + m}) s_{t}, a_{t}]

于是得到 m 步 TD 目标 (m-step TD target)：

\overset{y}{^} = (i = 0 \sum m - 1 γ^{i} r_{t + i}) + γ^{m} Q (s_{t + m}, a_{t + m})

多步 TD 目标介于蒙特卡洛和自举之间，如果 $m$ 调整得当，可以在方差和偏差之间取得较好的平衡。

强化学习笔记

探索

时序差分

TD 目标

TD 误差和 TD 损失

自举与蒙特卡洛

多步 TD

关系图谱

目录

反向链接