强化学习笔记

      • SARSA
      • 深度 Q 网络 (DQN)
      • 对决网络
      • REINFORCE
      • Actor-Critic
      • Advantage Actor-Critic (A2C)
      • 信任区域策略优化 (TRPO)
      • 近端策略优化 (PPO)
      • Soft Actor-Critic (SAC)
        • 强化学习基本概念
        • 部分可观察的马尔可夫决策过程 (POMDP)
        • 半 MDP (Semi-MDP)
        • 行为策略与目标策略
        • 在线强化学习与离线强化学习
        • 值迭代和策略迭代
        • 经验回放
        • 基于模型的强化学习与无模型强化学习
        • 时序差分
        • 目标网络
        • 双 Q 学习
        • 贝尔曼方程
        • ε-贪心策略
        • 元强化学习
        • Recall
        • 噪声网络
        • PopArt
        • 基线
        • 重参数化技巧
        • 基于能量的模型
    Home

    ❯

    tags

    ❯

    异策略学习

    异策略学习

    2024年7月07日1分钟阅读

    异策略学习是在线强化学习算法的一类,与同策略学习相对。它们的定义见行为策略与目标策略。

    此标签下有3条笔记。

    • 2025年2月09日

      Soft Actor-Critic (SAC)

      • model-free
      • off-policy
      • policy-iteration
      • online
      • max-entropy
    • 2024年7月28日

      对决网络

      • model-free
      • off-policy
      • value-iteration
      • online
    • 2024年7月04日

      深度 Q 网络 (DQN)

      • model-free
      • off-policy
      • value-iteration
      • online

    Created with Quartz v4.4.0 © 2025

    • GitHub