强化学习算法可以分为基于模型的强化学习 (Model-Based Reinforcement Learning) 和无模型强化学习 (Model-Free Reinforcement Learning) 两大类。两者的区别在于是否使用环境模型。

具体来说,基于模型的强化学习算法会学习环境的模型 (比如近似其状态转移函数,奖励函数等) ,然后利用模型进行规划,生成策略。而无模型强化学习算法则直接从环境中采样数据,学习策略或价值函数。