马尔可夫决策过程

强化学习中,一个智能体 (agent) 在与环境 (environment) 交互的过程中,观察环境的状态,选择动作,执行动作,获得奖励,然后根据奖励调整自己的策略 (policy),以获得最大的累积奖励 (回报) 。

强化学习问题的数学基础和建模工具通常是马尔可夫决策过程 (Markov Decision Process, MDP)。马尔可夫决策过程是马尔可夫链的延伸,区别在于增加了动作 (允许选择) 和奖励 (给予动力) 。和马尔可夫链一样,马尔可夫决策过程具有马尔可夫性质,即未来的状态只依赖于当前状态和当前动作,而不依赖于过去的状态和动作。MDP 可以是有限或无限的。

一个 MDP 通常可以使用四元组 或者五元组 来定义,其中:

  • 是状态空间,表示所有可能的状态 (state) 的集合
  • 是动作空间,表示所有可能的动作 (action) 的集合
  • 是状态转移概率函数,表示在状态 下执行动作 后,下一个状态是 的概率,即
  • 是奖励函数,表示在状态 下执行动作 后到达状态 时获得的奖励
    • 奖励有时也被翻译为奖赏等,但是要注意与下文中的回报 (return) 区分开来
    • 奖励函数有时可能是随机的,即 不是一个实数而是一个分布,但是通常我们认为奖励的随机性蕴含于状态转移的随机性中
  • 是折扣因子,表示未来奖励的重要性,通常取值在 之间

其他建模工具

广义上,强化学习问题可以使用 MDP 的变种或拓展来建模,例如部分可观察 MDP (POMDP)半 MDP (Semi-MDP) 等。

策略

策略 (policy) 是智能体在某个状态下选择动作的规则。策略可以是随机性策略和确定性策略。

随机性策略 是一个概率密度函数 ,表示在状态 下选择动作 的概率。

确定性策略 以状态 为输入,输出一个动作 ,表示在状态 下选择动作

回报与折扣回报

在强化学习中,智能体的目标是最大化累积奖励,即最大化回报 (return)。回报是智能体从环境中获得的奖励的累积和。考虑一个智能体从时间 开始与环境交互,到时间 时本回合 (episode) 结束,那么回报可以定义为:

更多的时候,我们认为未来奖励的重要性是递减的,即智能体更关心近期的奖励。因此,我们引入折扣因子 ,定义折扣回报 (discounted return) 为:

其中, 是折扣因子,表示未来奖励的重要性。

折扣回报常常简称为回报。

价值函数

在强化学习中,价值函数 (value function) 是回报的期望,反映现状的好坏。下面介绍两种常见的价值函数:状态动作价值函数 和状态价值函数

状态动作价值函数 (state-action value function) 是在状态 下执行动作 并遵循策略 后的期望回报:

状态价值函数 (state value function) 是在状态 下遵循策略 后的期望回报:

很显然,状态价值函数可以通过状态动作价值函数计算得到:

固定当前状态 (或状态动作对) ,价值函数可以用于衡量策略的好坏;固定当前策略,价值函数可以衡量当前状态 (或状态动作对) 的好坏。

有了这些价值函数,我们可以通过最大化来消除策略 ,即:

它们称为最优状态动作价值函数最优状态价值函数

可以这样理解 :已知状态 和动作 ,不论智能体选择什么策略,回报的期望都不会超过 ;当智能体选择最优策略 时,回报的期望就是

优势

优势 (advantage) 是状态动作价值函数和状态价值函数的差值,表示在状态 下执行动作 相对于执行策略 的平均动作的好坏:

类似地,可以定义最优优势函数 (optimal advantage function):

容易知道 ,即最优策略下,智能体选择的动作是最优的。