基于能量的模型 (Energy-Based Models, EBM) 是一种生成模型,它通过一个能量函数 来定义数据的分布 :

其中 是归一化常数,确保概率分布的和为 1。

EBM 与最大熵强化学习

基于能量的模型与最大熵强化学习有很深的联系。最大熵强化学习的策略提升的更新目标为

由此我们可以得到,最优策略 满足:

EBM 与离线强化学习

类似地,离线强化学习中,通常使用的一个优化目标是

其中 是一个参考策略,通常是数据集中的采样策略。这里的约束条件通常被省略。

其闭式解为:

注意这并不是一个 EBM, 而是一个 EBM 与参考策略的乘积。

证明

将目标函数展开为积分形式:

构造拉格朗日函数:

其中 为拉格朗日乘数。对 求变分导数并令其为零:

整理方程得到:

取指数后得:

将常数项 合并进归一化因子 ,最终闭式解为:

其中