动态规划 - The mini wiki

动态规划编辑

动态规划是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的，通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。

1

相关

在数学中，马可夫决策过程是离散时间随机最佳控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态规划解决的最佳化问题很有用。 MDP至少早在1950年代就已为人所知；一个对马可夫决策过程的核心研究是
罗纳德·霍华德于1960年出版的《动态规划和马可夫过程》。它们被用于许多领域，包括机器人学，自动化，经济学和制造业。 MDP的名称来自俄罗斯数学家安德雷·马可夫，因为它们是马可夫链的推广。

在数学中，马可夫决策过程是离散时间随机最佳控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态规划解决的最佳化问题很有用。 MDP至少早在1950年代就已为人所知；一个对马可夫决策过程的核心研究是
罗纳德·霍华德于1960年出版的《动态规划和马可夫过程》。它们被用于许多领域，包括机器人学，自动化，经济学和制造业。 MDP的名称来自俄罗斯数学家安德雷·马可夫，因为它们是马可夫链的推广。

在数学中，马可夫决策过程是离散时间随机最佳控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态规划解决的最佳化问题很有用。 MDP至少早在1950年代就已为人所知；一个对马可夫决策过程的核心研究是
罗纳德·霍华德于1960年出版的《动态规划和马可夫过程》。它们被用于许多领域，包括机器人学，自动化，经济学和制造业。 MDP的名称来自俄罗斯数学家安德雷·马可夫，因为它们是马可夫链的推广。

在数学中，马可夫决策过程是离散时间随机最佳控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态规划解决的最佳化问题很有用。 MDP至少早在1950年代就已为人所知；一个对马可夫决策过程的核心研究是
罗纳德·霍华德于1960年出版的《动态规划和马可夫过程》。它们被用于许多领域，包括机器人学，自动化，经济学和制造业。 MDP的名称来自俄罗斯数学家安德雷·马可夫，因为它们是马可夫链的推广。

在数学中，马可夫决策过程是离散时间随机最佳控制过程。它提供了一个数学框架，用于在结果部分随机且部分受决策者控制的情况下对决策建模。 MDP对于研究通过动态规划解决的最佳化问题很有用。 MDP至少早在1950年代就已为人所知；一个对马可夫决策过程的核心研究是
罗纳德·霍华德于1960年出版的《动态规划和马可夫过程》。它们被用于许多领域，包括机器人学，自动化，经济学和制造业。 MDP的名称来自俄罗斯数学家安德雷·马可夫，因为它们是马可夫链的推广。

理查德·贝尔曼，美国应用数学家，美国国家科学院院士，和动态规划的创始人。

“贝尔曼方程”也被称作“动态规划方程”，由理查德·贝尔曼发现。贝尔曼方程是动态规划这种数学最佳化方法能够达到最佳化的必要条件。此方程将“决策问题在特定时间点的值”以“来自初始选择的报酬及由初始选择衍生的决策问题的值”的形式表示。藉这个方式将动态最佳化问题变成较简单的子问题，而这些子问题遵守由贝尔曼所提出的“最佳化原理”。

维特比算法是一种动态规划算法。它用于寻找最大后验概率的维特比路径——隐含状态序列，特别是在马尔可夫信息源上下文和隐马尔可夫模型中。

矩阵链乘积是可用动态规划解决的最佳化问题。给定一序列矩阵，期望求出矩阵乘法的最有效方法。此问题并不是真的去执行其乘法，而只是决定执行乘法的顺序而已。

理查德·贝尔曼，美国应用数学家，美国国家科学院院士，和动态规划的创始人。