马可夫决策过程 - The mini wiki

马可夫决策过程编辑

在数学中，马可夫决策过程是离散时间随机最佳控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态规划解决的最佳化问题很有用。 MDP至少早在1950年代就已为人所知；一个对马可夫决策过程的核心研究是
罗纳德·霍华德于1960年出版的《动态规划和马可夫过程》。它们被用于许多领域，包括机器人学，自动化，经济学和制造业。 MDP的名称来自俄罗斯数学家安德雷·马可夫，因为它们是马可夫链的推广。