强化学习可以分为在线强化学习 (Online Reinforcement Learning) 和离线强化学习 (Offline Reinforcement Learning) 两种。
在线强化学习中,智能体与环境实时交互,智能体在每一步都会观察环境的状态、选择动作、执行动作、获得奖励,然后根据奖励调整自己的策略。这里包含更多关于在线强化学习的内容。
而离线强化学习则根据已有的数据集进行学习,智能体不需要与环境实时交互。离线强化学习面对的一个主要问题是分布偏移 (distributional shift),即训练数据和测试数据的分布不一致。这里包含更多关于离线强化学习的内容。