目标网络 (Target Network) 是深度强化学习中的一个重要技巧,用于提高神经网络的稳定性,由 DQN 在其论文中首次提出。

DQN 为例来介绍这一技巧。每经过 次价值函数更新,我们复制价值网络 以获得目标网络 ,并在此后的 次更新中使用 来计算 TD 误差。即

在线 Q 学习中,使得 增加的更新通常也会使 也增加,导致 TD 目标 的增加,从而可能导致策略的发散或振荡。目标网络方法使用一组较旧的参数来生成 ,在更新 和更新影响 之间增加延迟,从而使得发散或振荡的可能性大大降低。