搜索
❯
总共有7个标签。
此标签下有1条笔记。
2025年2月09日
无模型强化学习 (Model-Free Reinforcement Learning) 是不使用环境模型的一类强化学习算法,与基于模型的强化学习 (Model-Based Reinforcement Learning) 相对。它们的介绍见model-based-or-free。
此标签下有9条笔记。
2024年7月04日
2024年7月28日
2024年10月25日
2025年1月22日
异策略学习是在线强化学习算法的一类,与同策略学习相对。它们的定义见行为策略与目标策略。
此标签下有3条笔记。
同策略学习是在线强化学习算法的一类,与异策略学习相对。它们的定义见行为策略与目标策略。
此标签下有6条笔记。
在线强化学习是强化学习的一个分支,与离线强化学习相对。它们的定义见在线强化学习与离线强化学习。
策略迭代是强化学习算法的一类,与值迭代相对。它们的定义见值迭代和策略迭代。
值迭代是强化学习算法的一类,与策略迭代相对。它们的定义见值迭代和策略迭代。