强化学习笔记
搜索
Search
暗色模式
亮色模式
探索
posts
SARSA
深度 Q 网络 (DQN)
对决网络
REINFORCE
Actor-Critic
Advantage Actor-Critic (A2C)
信任区域策略优化 (TRPO)
近端策略优化 (PPO)
Soft Actor-Critic (SAC)
概念
强化学习基本概念
部分可观察的马尔可夫决策过程 (POMDP)
半 MDP (Semi-MDP)
行为策略与目标策略
在线强化学习与离线强化学习
值迭代和策略迭代
经验回放
基于模型的强化学习与无模型强化学习
时序差分
目标网络
双 Q 学习
贝尔曼方程
ε-贪心策略
元强化学习
Recall
噪声网络
PopArt
基线
重参数化技巧
基于能量的模型
Home
❯
tags
❯
离线强化学习
离线强化学习
2024年7月07日
1分钟阅读
离线强化学习是强化学习的一个分支,与
在线强化学习
相对。它们的定义见
在线强化学习与离线强化学习
。
关系图谱
反向链接
基于能量的模型
在线强化学习与离线强化学习
在线强化学习