在强化学习 (这里指在线强化学习) 中,我们通常让智能体与环境交互,记录下观察到的状态、动作、奖励等信息,然后根据这些信息学习策略。其中用于控制智能体与环境交互的策略称为行为策略 (Behavior Policy),而我们希望最终学习到的策略称为目标策略 (Target Policy)。
行为策略与目标策略可能不同,也可能相同。如果两者相同,我们将这种情况称为同策略学习 (On-Policy Learning);如果两者不同,我们将这种情况称为异策略学习 (Off-Policy Learning)。异策略算法能够利用过去策略探索所产生的数据,因而其采样效率高于同策略算法。因此,如果可能,我们通常更倾向于使用异策略算法。