对决网络 (dueling network) 是对 DQN 的改进,由 DeepMind 在 2016 年提出。它的基本思想是将最优动作状态价值 分解成最优状态价值 和最优优势 。它的训练和 DQN 完全相同。如果用分层和模块化的思想,可以视为将原本的一个神经网络估算 变成使用两个神经网络估算。
基于以下定理:
可以得到对决网络估算 的公式:
其中 分别是 和 两个神经网络的参数。
定理中 ,但是它在实际训练时是至关重要的,因为如果没有它, 就不再具有唯一性,比如 可以增加一个常数 , 减少一个常数 ,这样 仍然不变。而引入的 解决了这个问题。
直观地说,对决网络可以学习哪些状态是 (或不是) 有价值的,而无需学习每个状态下每个动作的影响。这在其动作不以任何相关方式影响环境的状态中特别有用。这种方法在不对基础强化学习算法 (Q 学习) 进行任何更改的情况下实现了跨动作的泛化学习。也是因为这一原因,可以用于 DQN 的所有改进技巧都可以用于对决网络,例如 DDQN 等。