[[ item.title ]]
Mini wiki
马可夫决策过程
编辑
在数学中,马可夫决策过程是离散时间
随机
最佳控制
过程。 它提供了一个数学框架,用于在结果部分
随机
且部分受决策者控制的情况下对
决策
建模。 MDP对于研究通过
动态规划
解决的
最佳化问题
很有用。 MDP至少早在1950年代就已为人所知; 一个对马可夫决策过程的核心研究是
罗纳德·霍华德于1960年出版的《动态规划和马可夫过程》。 它们被用于许多领域,包括机器人学,
自动化
,
经济学
和
制造业
。 MDP的名称来自俄罗斯数学家
安德雷·马可夫
,因为它们是
马可夫链
的推广。
5
图片
0 图片
评论
0 评论
匿名用户
·
[[ show_time(comment.timestamp) ]]
[[ nltobr(comment.content) ]]
相关
学习自动机
是一种1970年代就开始研究的机器学习算法。学习自动机是由对以往对环境的经验来选择目前的动作。若环境是随机过程的,且使用了
马可夫决策过程
,则这种学习自动机属于强化学习的算法。
部分可观察决策过程,是一种通用化的
马可夫决策过程
。POMDP模拟代理人决策程序是假设系统动态由MDP决定,但是代理人无法直接观察目前的状态。相反的,它必须要根据模型的全域与部分区域观察结果来推断状态的分布。