POMDP
部分可观察的马尔可夫决策过程 (Partially Observable Markov Decision Process, POMDP) 是马尔可夫决策过程 (MDP) 的一个拓展,用于建模智能体在不完全观察的环境中的决策问题。在 POMDP 中,智能体不能直接观察到环境的状态,而是通过观察到的部分信息来推断环境的状态,然后选择动作。
POMDP 可以通过一个七元组 来定义,其中:
- 的定义与 MDP 相同
- 是观察空间,表示所有可能的观察 (observation) 的集合
- 是观察概率函数,表示在执行动作 到达状态 后,观察到观察 的概率,即
与 MDP 不同,POMDP 中的智能体不能直接观察到环境的状态 。在环境处于状态 时智能体采取动作 将导致环境以概率 转移到下一个状态 ,获得奖励 并以概率 观察到 。
此时,智能体的策略 (policy) 被定义为从观察 (observation) 的历史映射到动作 (或动作的分布) 的函数。智能体的目标是找到一个最优策略,使得累积奖励最大化。
信念状态和信念 MDP
马尔可夫信念状态 (Markovian belief state) 允许将 POMDP 表述为马尔可夫决策过程,其中每个信念 (belief) 都是一个状态。因此,由此产生的信念 MDP (belief MDP) 将在连续状态空间上定义 (即使原始 POMDP 具有有限数量的状态,因为状态空间 上有无限多的概率分布,信念空间也将无限的) 。
信念 MDP 可以被定义为五元组 ,其中:
- 是 POMDP 状态之上的信念空间
- 是动作空间,与 POMDP 的动作空间相同
- 是状态转移概率函数,表示在信念 下执行动作 后,下一个信念是 的概率,即
- 可以从原始 POMDP 派生:
- 为在信念 下执行动作 并观察到 后,下一个信念是 的判别函数,即如果下一个信念是 则为 1,否则为 0
- 是奖励函数,表示在信念 下执行动作 后获得的奖励
- 可以从原始 POMDP 派生:
- 是折扣因子,与 POMDP 的折扣因子相同
信念 MDP 不再是部分可观察的,因为给定历史下智能体知道它的信念。