强化学习笔记

❯

标签索引

总共有7个标签。

max-entropy

此标签下有1条笔记。

2025年2月09日
Soft Actor-Critic (SAC)

model-free

无模型强化学习 (Model-Free Reinforcement Learning) 是不使用环境模型的一类强化学习算法，与基于模型的强化学习 (Model-Based Reinforcement Learning) 相对。它们的介绍见model-based-or-free。

此标签下有9条笔记。

2024年7月04日
SARSA
2024年7月04日
深度 Q 网络 (DQN)
2024年7月28日
对决网络
2024年10月25日
REINFORCE
2024年10月25日
Actor-Critic
2024年10月25日
Advantage Actor-Critic (A2C)
2025年1月22日
信任区域策略优化 (TRPO)
2025年1月22日
近端策略优化 (PPO)
2025年2月09日
Soft Actor-Critic (SAC)

off-policy

异策略学习是在线强化学习算法的一类，与同策略学习相对。它们的定义见行为策略与目标策略。

此标签下有3条笔记。

2024年7月04日
深度 Q 网络 (DQN)
2024年7月28日
对决网络
2025年2月09日
Soft Actor-Critic (SAC)

on-policy

同策略学习是在线强化学习算法的一类，与异策略学习相对。它们的定义见行为策略与目标策略。

此标签下有6条笔记。

2024年7月04日
SARSA
2024年10月25日
REINFORCE
2024年10月25日
Actor-Critic
2024年10月25日
Advantage Actor-Critic (A2C)
2025年1月22日
信任区域策略优化 (TRPO)
2025年1月22日
近端策略优化 (PPO)

online

在线强化学习是强化学习的一个分支，与离线强化学习相对。它们的定义见在线强化学习与离线强化学习。

此标签下有9条笔记。

2024年7月04日
SARSA
2024年7月04日
深度 Q 网络 (DQN)
2024年7月28日
对决网络
2024年10月25日
REINFORCE
2024年10月25日
Actor-Critic
2024年10月25日
Advantage Actor-Critic (A2C)
2025年1月22日
信任区域策略优化 (TRPO)
2025年1月22日
近端策略优化 (PPO)
2025年2月09日
Soft Actor-Critic (SAC)

policy-iteration

策略迭代是强化学习算法的一类，与值迭代相对。它们的定义见值迭代和策略迭代。

此标签下有6条笔记。

2024年10月25日
REINFORCE
2024年10月25日
Actor-Critic
2024年10月25日
Advantage Actor-Critic (A2C)
2025年1月22日
信任区域策略优化 (TRPO)
2025年1月22日
近端策略优化 (PPO)
2025年2月09日
Soft Actor-Critic (SAC)

value-iteration

值迭代是强化学习算法的一类，与策略迭代相对。它们的定义见值迭代和策略迭代。

此标签下有3条笔记。

2024年7月04日
SARSA
2024年7月04日
深度 Q 网络 (DQN)
2024年7月28日
对决网络

Created with Quartz v4.4.0 © 2025

GitHub