在目标网络方法的基础上,DeepMind 在 2015 年进一步提出了双 Q 学习 (double Q-learning, double DQN, DDQN)。
即使 DQN 已经是对真实价值的无偏估计,只要它不恒等于真实价值,由于噪声的存在,TD 学习在最大化过程中一定会产生高估。这一高估会随着自举的进行而扩散到其他状态,导致最终整体上的价值高估。这一高估是不均匀的,因此会导致根据价值函数导出的策略性能下降。
目标网络方法使用同一个网络 (目标网络) 来进行最优动作的选择和 TD 目标的计算;而 DDQN 使用价值网络来选择最优动作,使用目标网络来计算 TD 目标。DDQN 得到的 TD 目标更小,缓解了高估。
从高估的形成原因方面分析,高估首先由于最大化这一操作而形成,随后通过自举而扩散到其他状态。目标网络方法抑制了这种扩散,而 DDQN 进一步从最大化这一源头上缓解了高估。