强化学习笔记

      • SARSA
      • 深度 Q 网络 (DQN)
      • 对决网络
      • REINFORCE
      • Actor-Critic
      • Advantage Actor-Critic (A2C)
      • 信任区域策略优化 (TRPO)
      • 近端策略优化 (PPO)
      • Soft Actor-Critic (SAC)
        • 强化学习基本概念
        • 部分可观察的马尔可夫决策过程 (POMDP)
        • 半 MDP (Semi-MDP)
        • 行为策略与目标策略
        • 在线强化学习与离线强化学习
        • 值迭代和策略迭代
        • 经验回放
        • 基于模型的强化学习与无模型强化学习
        • 时序差分
        • 目标网络
        • 双 Q 学习
        • 贝尔曼方程
        • ε-贪心策略
        • 元强化学习
        • Recall
        • 噪声网络
        • PopArt
        • 基线
        • 重参数化技巧
        • 基于能量的模型
    Home

    ❯

    tags

    ❯

    离线强化学习

    离线强化学习

    2024年7月07日1分钟阅读

    离线强化学习是强化学习的一个分支,与在线强化学习相对。它们的定义见在线强化学习与离线强化学习。


    关系图谱

    反向链接

    • 基于能量的模型
    • 在线强化学习与离线强化学习
    • 在线强化学习

    Created with Quartz v4.4.0 © 2025

    • GitHub