Soft Actor-Critic (SAC)

2018 年被提出的 Soft Actor-Critic (SAC) 是最大熵强化学习的代表作。它从 2017 年的 Soft Q-Learning 改进而来，在无模型的在线强化学习算法中，SAC 是一种非常高效且稳定的算法，至今仍被广泛使用。

最大熵强化学习

熵 (entropy) 是对随机变量的随机程度的度量。对于连续随机变量，我们通常使用微分熵。在此后的讨论中，如果没有明确说明，我们默认熵指的是微分熵，随机变量指的是连续随机变量。

香农熵的某些性质在连续随机变量和微分熵上并不成立，例如微分熵可以是负数。在使用微分熵时，要注意这些性质的变化。

如果 $X$ 是一个连续随机变量，并且它的概率密度函数为 $p$ ，那么它的微分熵就定义为

H (X) = E_{x \sim p} [- lo g p (x)]

在强化学习中，我们可以使用 $H (π (\cdot ∣ s))$ 来表示策略 $π$ 在状态 $s$ 下的随机程度。

最大熵强化学习 (maximum entropy RL) 的核心思想是，为了鼓励策略进行探索，除了要求最大化累积奖励，还要使得策略更随机。为此，在强化学习的目标中加入一项熵的正则项，定义为

π^{*} = ar g π max E_{π} [t \sum r (s_{t}, a_{t}) + α H (π (\cdot ∣ s_{t}))]

其中， $α$ 是一个正则化的系数，用来控制熵的重要程度。

熵强化学习增强了强化学习算法的探索程度， $α$ 越大，探索性就越强，有助于加速后续的策略学习，并减少策略陷入较差的局部最优的可能性。

软策略迭代

重复交替使用软策略评估和软策略提升，最终策略可以收敛到最大熵强化学习目标中的最优策略。

软策略评估

在最大熵强化学习框架中，由于目标函数发生了变化，其他的一些定义也有相应的变化。贝尔曼方程变为软贝尔曼方程 (Soft Bellman Equation):

Q (s_{t}, a_{t}) = r (s_{t}, a_{t}) + γ E_{s_{t + 1}} [V (s_{t + 1})]

其中，状态价值函数为

V (s_{t}) = E_{a_{t} \sim π} [Q (s_{t}, a_{t}) - α lo g π (a_{t} ∣ s_{t})] = E_{a_{t} \sim π} [Q (s_{t}, a_{t})] + H (π (\cdot ∣ s_{t}))

在 Soft Q-Learning 中这两个定义的给出方式有所不同，但是实际上定义了相同的函数。这里取了 SAC 中的定义。

软策略评估定理的证明

假定动作空间 $∣ A ∣ < \infty$ (为了保证熵增强奖励是有界的)，定义熵增强奖励为：

r_{π} (s_{t}, a_{t}) ≜ r (s_{t}, a_{t}) + E_{s_{t + 1} \sim p} [H (π (\cdot ∣ s_{t + 1}))]

并将更新规则重写为：

Q (s_{t}, a_{t}) \leftarrow r_{π} (s_{t}, a_{t}) + γ E_{s_{t + 1} \sim p, a_{t + 1} \sim π} [Q (s_{t + 1}, a_{t + 1})]

可以通过《Reinforcement learning: An introduction》(Sutton, R. S. and Barto, A. G., 1998) 中的策略评估收敛性完成证明。

软策略提升

有如下软策略提升公式：

π_{new} = ar g π^{'} min D_{K L} (π^{'} (\cdot ∣ s), \frac{exp ( \frac{1}{α} Q ^{π_{old}} ( s , \cdot ) )}{Z ^{π_{old}} ( s , \cdot )})

或者说

π_{new} = \frac{exp ( \frac{1}{α} Q ^{π_{old}} ( s , \cdot ) )}{Z ^{π_{old}} ( s , \cdot )}

我们可以注意到这里的 $\frac{e x p ( \frac{1}{α} Q ^{π_{old}} ( s , \cdot ) )}{Z ^{π_{old}} ( s , \cdot )}$ 实际上是一个基于能量的模型 (EBM)

软策略提升定理的证明

我们首先证明如下的引理：

H (π_{old} (\cdot ∣ s)) + E_{a \sim π_{old}} [Q_{soft}^{π_{old}} (s, a)] \leq H (π_{new} (\cdot ∣ s)) + E_{a \sim π_{new}} [Q_{soft}^{π_{old}} (s, a)]

因为

lo g π_{new} (a ∣ s) = Q_{soft}^{π_{old}} (s, a) - lo g \int exp (Q_{soft}^{π_{old}} (s, a^{'})) d a^{'}

对两边同时对 $π_{old}$ 取期望得到

\int π_{old} (a ∣ s) lo g π_{new} (a ∣ s) d a = E_{π_{old}} [Q_{soft}^{π_{old}} (s, a)] - lo g \int exp (Q_{soft}^{π_{old}} (s, a^{'})) d a^{'}

右边最后一项与 $π_{old}$ 无关所以取期望后不变。所以有：

= = = = = = = = \leq H (π_{old} (\cdot ∣ s)) + E_{π_{old}} [Q_{soft}^{π_{old}} (s, a)] - \int π_{old} (a ∣ s) lo g π_{old} (a ∣ s) d a + E_{π_{old}} [Q_{soft}^{π_{old}} (s, a)] - \int π_{old} (a ∣ s) lo g π_{old} (a ∣ s) d a + \int π_{old} (a ∣ s) lo g π_{new} (a ∣ s) d a + lo g \int exp (Q_{soft}^{π_{old}} (s, a^{'})) d a^{'} - \int π_{old} (a ∣ s) lo g \frac{π _{old} ( a ∣ s )}{π _{new} ( a ∣ s )} d a + lo g \int exp (Q_{soft}^{π} (s, a^{'})) d a^{'} - D_{KL} (π_{old} ∥ π_{new}) + lo g \int exp (Q_{soft}^{π_{old}} (s, a)) d a - D_{KL} (π_{old} ∥ π_{new}) + lo g \frac{exp ( Q _{soft}^{π_{old}} ( s , a ) )}{π _{new} ( a ∣ s )} - D_{KL} (π_{old} ∥ π_{new}) + \int π_{new} (a ∣ s) lo g \frac{exp ( Q _{soft}^{π_{old}} ( s , a ) )}{π _{new} ( a ∣ s )} d a - D_{KL} (π_{old} ∥ π_{new}) + \int π_{new} (a ∣ s) Q_{soft}^{π_{old}} (s, a) d a - \int π_{new} (a ∣ s) lo g π_{new} (a ∣ s) d a - D_{KL} (π_{old} ∥ π_{new}) + E_{π_{new}} [Q_{soft}^{π_{old}} (s, a)] + H (π_{new} (\cdot ∣ s)) E_{π_{new}} [Q_{soft}^{π_{old}} (s, a)] + H (π_{new} (\cdot ∣ s))

在上述引理的基础上有：

Q_{soft}^{π} (s, a) = E_{s_{1}} [r_{0} + γ (H (π (\cdot ∣ s_{1})) + E_{a_{1} \sim π} [Q_{soft^{π}} (s_{1}, a_{1})])] \leq E_{s_{1}} [r_{0} + γ (H (\tilde{π} (\cdot ∣ s_{1})) + E_{a_{1} \sim \tilde{π}} [Q_{soft^{π}} (s_{1}, a_{1})])] = E_{s_{1}} [r_{0} + γ (H (\tilde{π} (\cdot ∣ s_{1})) + r_{1})] + γ^{2} E_{s_{2}} [H (π (\cdot ∣ s_{2})) + E_{a_{2} \sim π} [Q_{soft}^{π} (s_{2}, a_{2})]] \leq E_{s_{1}} [r_{0} + γ (H (\tilde{π} (\cdot ∣ s_{1})) + r_{1}] + γ^{2} E_{s_{2}} [H (\tilde{π} (\cdot ∣ s_{2})) + E_{a_{2} \sim \tilde{π}} [Q_{soft}^{π} (s_{2}, a_{2})]] = E_{s_{1} a_{2} \sim \tilde{π}, s_{2}} [r_{0} + γ (H (\tilde{π} (\cdot ∣ s_{1})) + r_{1}) + γ^{2} (H (\tilde{π} (\cdot ∣ s_{2})) + r_{2})] + γ^{3} E_{s_{3}} [H (\tilde{π} (\cdot ∣ s_{3})) + E_{a_{3} \sim \tilde{π}} [Q_{soft}^{π} (s_{3}, a_{3})]] ⋮ \leq E_{τ \sim \tilde{π}} [r_{0} + t = 1 \sum \infty γ^{t} (H (\tilde{π} (\cdot ∣ s_{t})) + r_{t})] = Q_{soft}^{\tilde{π}} (s, a) .

损失函数

原始论文中的 SAC 除了 Q 函数之外，还会学习一个值函数 $V_{ψ}$ ；但是在更现代的实现中则只学习 Q 函数。本文介绍后者。

SAC 进一步拓展了目标网络和 DDQN 的思想，使用两个网络 $Q_{ω_{1}}, Q_{ω_{2}}$ 来估计 $Q$ 函数，在每次使用 Q 值时，选择两个网络中 Q 值较小的那个；同时，两个网络分别具有目标网络 $Q_{ω_{1}^{-}}, Q_{ω_{2}^{-}}$ ，用于计算目标 Q 值。策略则被策略网络 $π_{θ}$ 建模为高斯分布，使用重参数化技巧进行采样。

任意一个 $Q$ 网络损失函数为:

= = L_{Q} (ω) E_{(s_{t}, a_{t}, r_{t}, s_{t + 1}) \sim R} [\frac{1}{2} (Q_{ω} (s_{t}, a_{t}) - (r_{t} + γ V_{ω^{-}} (s_{t + 1})))^{2}] E_{(s_{t}, a_{t}, r_{t}, s_{t + 1}) \sim R, a_{t + 1} \sim π_{θ} (\cdot ∣ s_{t + 1})} [\frac{1}{2} (Q_{ω} (s_{t}, a_{t}) - (r_{t} + γ (j = 1, 2 min Q_{ω_{j}^{-}} (s_{t + 1}, a_{t + 1}) - α lo g π (a_{t + 1} ∣ s_{t + 1}))))^{2}]

其中， $R$ 是策略过去收集的数据 (从 Replay Buffer 中提取)。

$π$ 的损失函数由 KL 散度得到，化简后为:

L_{π} (θ) = E_{s_{t} \sim R, a_{t} \sim π_{θ}} [α lo g (π_{θ} (a_{t} ∣ s_{t})) - Q_{ω} (s_{t}, a_{t})]

可以理解为最大化函数 $V$ ，因为有 $V (s_{t}) = E_{a_{t} \sim π} [Q (s_{t}, a_{t}) - α lo g π (a_{t} ∣ s_{t})]$ 。

熵正则项的自动调节

SAC 也有固定熵正则项系数的版本。但是自动调整的版本性能更好。

一些文献也将熵正则项系数 $α$ 称为温度系数 (temperature parameter), 但是强化学习中充斥着各种意义不同的被称为温度的参数，本文尽量采取更加明确的说法。

熵正则项的系数 $α$ 是 SAC 中非常重要的一个参数。在不同的状态下需要不同大小的熵：

在最优动作不确定的某个状态下，熵的取值应该大一点
在最优动作比较确定的状态下，熵的取值可以小一点

因此，比较合适的选择是对 $α$ 进行自动调节。为了自动调整熵正则项，SAC 将强化学习的目标改写为一个带约束的优化问题 (其中 $ρ_{π}$ 表示策略 $π$ 采样得到的状态动作对的分布)：

π max E_{π} [t \sum r (s_{t}, a_{t})] s.t. E_{(s_{t}, a_{t}) \sim ρ_{π}} [- lo g (π_{t} (a_{t} ∣ s_{t}))] \geq H_{0}

也就是最大化期望回报，同时约束熵的均值大于 $H_{0}$ 。化简得到 $α$ 的损失函数：

L (α) = E_{s_{t} \sim R, a_{t} \sim π (- ∣ s_{t})} [- α lo g π (a_{t} ∣ s_{t}) - α H_{0}]

即当策略的熵低于目标值 $H_{0}$ 时，训练目标 $L (α)$ 会使得 $α$ 的值增大，进而在最小化上述损失函数 $L_{π} (θ)$ 的过程中增加了策略熵对应项的重要性；而当策略的熵高于目标值 $H_{0}$ 时，训练目标 $L (α)$ 会使得 $α$ 的值减小，进而使得策略训练时更专注于价值提升。

强化学习笔记

探索

Soft Actor-Critic (SAC)

最大熵强化学习

软策略迭代

软策略评估

软策略评估定理的证明

软策略提升

软策略提升定理的证明

损失函数

熵正则项的自动调节

关系图谱

目录

反向链接