总共有7个标签。

model-free

无模型强化学习 (Model-Free Reinforcement Learning) 是不使用环境模型的一类强化学习算法,与基于模型的强化学习 (Model-Based Reinforcement Learning) 相对。它们的介绍见model-based-or-free

online

在线强化学习是强化学习的一个分支,与离线强化学习相对。它们的定义见在线强化学习与离线强化学习

value-iteration

值迭代是强化学习算法的一类,与策略迭代相对。它们的定义见值迭代和策略迭代