强化学习 编辑
强化学习是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。强化学习是除了监督学习无监督学习之外的第三种基本的机器学习方法。与监督学习不同的是,强化学习不需要带标签的输入输出对,同时也无需对非最优解的精确地纠正。其关注点在于寻找探索和利用的平衡,强化学习中的“探索-利用”的交换,在多臂老虎机问题和有限MDP中研究得最多。
1
相关
学习自动机是一种1970年代就开始研究的机器学习算法。学习自动机是由对以往对环境的经验来选择目前的动作。若环境是随机过程的,且使用了马可夫决策过程,则这种学习自动机属于强化学习的算法。
SARSA算法是机器学习领域的一种强化学习算法,得名于“状态-动作-奖励-状态-动作”的英文首字母缩写。