半马尔可夫决策过程 (Semi-Markov Decision Processes, Semi-MDP or SMDP) 是马尔可夫决策过程 (MDP) 的一个拓展,通常用于处理涉及不同抽象级别动作的问题。它认为某些动作是一系列原子动作的组合。在原子动作的层面上,环境仍然表现出马尔可夫性质,但在更高层次的抽象动作上,环境可能不再是马尔可夫的。
例子
一个动作可能是捡起或放下一个物体,而一个原子动作可能是某一时间步下机械臂的关节扭矩。
半马尔可夫决策过程 (Semi-Markov Decision Processes, Semi-MDP or SMDP) 是马尔可夫决策过程 (MDP) 的一个拓展,通常用于处理涉及不同抽象级别动作的问题。它认为某些动作是一系列原子动作的组合。在原子动作的层面上,环境仍然表现出马尔可夫性质,但在更高层次的抽象动作上,环境可能不再是马尔可夫的。
例子
一个动作可能是捡起或放下一个物体,而一个原子动作可能是某一时间步下机械臂的关节扭矩。