强化学习笔记

      • SARSA
      • 深度 Q 网络 (DQN)
      • 对决网络
      • REINFORCE
      • Actor-Critic
      • Advantage Actor-Critic (A2C)
      • 信任区域策略优化 (TRPO)
      • 近端策略优化 (PPO)
      • Soft Actor-Critic (SAC)
        • 强化学习基本概念
        • 部分可观察的马尔可夫决策过程 (POMDP)
        • 半 MDP (Semi-MDP)
        • 行为策略与目标策略
        • 在线强化学习与离线强化学习
        • 值迭代和策略迭代
        • 经验回放
        • 基于模型的强化学习与无模型强化学习
        • 时序差分
        • 目标网络
        • 双 Q 学习
        • 贝尔曼方程
        • ε-贪心策略
        • 元强化学习
        • Recall
        • 噪声网络
        • PopArt
        • 基线
        • 重参数化技巧
        • 基于能量的模型
    Home

    ❯

    概念

    ❯

    ε-贪心策略

    ε-贪心策略

    2024年7月07日1分钟阅读

    ϵ-贪心策略是一种在强化学习中用于在探索和利用之间取得平衡的策略,通常在值迭代算法中用于生成行为策略 (探索策略)。它以 ϵ 的概率随机选择一个动作,以 1−ϵ 的概率选择价值函数 (或最优价值函数) 估计值最高的动作。


    关系图谱

    反向链接

    • 深度 Q 网络 (DQN)

    Created with Quartz v4.4.0 © 2025

    • GitHub