ϵ-贪心策略是一种在强化学习中用于在探索和利用之间取得平衡的策略,通常在值迭代算法中用于生成行为策略 (探索策略)。它以 ϵ 的概率随机选择一个动作,以 1−ϵ 的概率选择价值函数 (或最优价值函数) 估计值最高的动作。