强化学习笔记
搜索
Search
暗色模式
亮色模式
探索
posts
SARSA
深度 Q 网络 (DQN)
对决网络
REINFORCE
Actor-Critic
Advantage Actor-Critic (A2C)
信任区域策略优化 (TRPO)
近端策略优化 (PPO)
Soft Actor-Critic (SAC)
概念
强化学习基本概念
部分可观察的马尔可夫决策过程 (POMDP)
半 MDP (Semi-MDP)
行为策略与目标策略
在线强化学习与离线强化学习
值迭代和策略迭代
经验回放
基于模型的强化学习与无模型强化学习
时序差分
目标网络
双 Q 学习
贝尔曼方程
ε-贪心策略
元强化学习
Recall
噪声网络
PopArt
基线
重参数化技巧
基于能量的模型
Home
❯
tags
❯
标签: max-entropy
标签: max-entropy
此标签下有1条笔记。
2025年2月09日
Soft Actor-Critic (SAC)
model-free
off-policy
policy-iteration
online
max-entropy