强化学习笔记
搜索
Search
暗色模式
亮色模式
探索
posts
SARSA
深度 Q 网络 (DQN)
对决网络
REINFORCE
Actor-Critic
Advantage Actor-Critic (A2C)
信任区域策略优化 (TRPO)
近端策略优化 (PPO)
Soft Actor-Critic (SAC)
概念
强化学习基本概念
部分可观察的马尔可夫决策过程 (POMDP)
半 MDP (Semi-MDP)
行为策略与目标策略
在线强化学习与离线强化学习
值迭代和策略迭代
经验回放
基于模型的强化学习与无模型强化学习
时序差分
目标网络
双 Q 学习
贝尔曼方程
ε-贪心策略
元强化学习
Recall
噪声网络
PopArt
基线
重参数化技巧
基于能量的模型
Home
❯
tags
❯
值迭代
值迭代
2024年7月01日
1分钟阅读
值迭代是强化学习算法的一类,与
策略迭代
相对。它们的定义见
值迭代和策略迭代
。
此标签下有3条笔记。
2024年7月28日
对决网络
model-free
off-policy
value-iteration
online
2024年7月04日
深度 Q 网络 (DQN)
model-free
off-policy
value-iteration
online
2024年7月04日
SARSA
model-free
on-policy
value-iteration
online