POMDP

部分可观察的马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 是马尔可夫决策过程 (MDP) 的一个拓展,用于建模智能体在不完全观察的环境中的决策问题。在 POMDP 中,智能体不能直接观察到环境的状态,而是通过观察到的部分信息来推断环境的状态,然后选择动作。

POMDP 可以通过一个七元组 来定义,其中:

  • 的定义与 MDP 相同
  • 是观察空间,表示所有可能的观察 (observation) 的集合
  • 是观察概率函数,表示在执行动作 到达状态 后,观察到观察 的概率,即

与 MDP 不同,POMDP 中的智能体不能直接观察到环境的状态 。在环境处于状态 时智能体采取动作 将导致环境以概率 转移到下一个状态 ,获得奖励 并以概率 观察到

此时,智能体的策略 (policy) 被定义为从观察 (observation) 的历史映射到动作 (或动作的分布) 的函数。智能体的目标是找到一个最优策略,使得累积奖励最大化。

信念状态和信念 MDP

马尔可夫信念状态 (Markovian belief state) 允许将 POMDP 表述为马尔可夫决策过程,其中每个信念 (belief) 都是一个状态。因此,由此产生的信念 MDP (belief MDP) 将在连续状态空间上定义 (即使原始 POMDP 具有有限数量的状态,因为状态空间 上有无限多的概率分布,信念空间也将无限的) 。

信念 MDP 可以被定义为五元组 ,其中:

  • 是 POMDP 状态之上的信念空间
  • 是动作空间,与 POMDP 的动作空间相同
  • 是状态转移概率函数,表示在信念 下执行动作 后,下一个信念是 的概率,即
    • 可以从原始 POMDP 派生:
    • 为在信念 下执行动作 并观察到 后,下一个信念是 的判别函数,即如果下一个信念是 则为 1,否则为 0
  • 是奖励函数,表示在信念 下执行动作 后获得的奖励
    • 可以从原始 POMDP 派生:
  • 是折扣因子,与 POMDP 的折扣因子相同

信念 MDP 不再是部分可观察的,因为给定历史下智能体知道它的信念。