过拟合 - The mini wiki

过拟合编辑

在统计学中，过适是指过于紧密或精确地匹配特定资料集，以致于无法良好地拟合其他资料或预测未来的观察结果的现象。过拟合模型指的是相较有限的数据而言，参数过多或者结构过于复杂的统计模型。发生过拟合时，模型的偏差小而方差大。过拟合的本质是训练算法从统计噪声中不自觉获取了信息并表达在了模型结构的参数当中。相较用于训练的资料总量来说，一个模型只要结构足够复杂或参数足够多，就总是可以完美地适应资料的。过适一般可以视为违反奥卡姆剃刀原则。

4

图片 0 图片

评论 0 评论

匿名用户 · [[ show_time(comment.timestamp) ]]

[[ nltobr(comment.content) ]]

相关

模型选择是在给定数据的情况下，在一组候选统计模型中选定最优模型的过程。在最简单的情形之下，给定数据可以是已存在的数据。不过，在复杂的情形下，模型选择也可能牵涉到实验设计，以便能够收集数据来进行模型选择。诸多候选模型的预测或解释能力相近，但根据奥卡姆剃刀原则，最简单的模型往往是最好的选择，这有助于避免过拟合。

Dropout是Google提出的一种正则化技术，用以在人工神经网络中对抗过拟合。Dropout有效的原因，是它能够避免在训练集上产生复杂的相互适应。Dropout这个术语代指在神经网络中丢弃部分神经元。在训练阶段，dropout使得每次只有部分网络结构得到更新，因而是一种高效的神经网络模型平均化的方法。

在数学与计算机科学中，尤其是在机器学习和逆问题领域中，正则化是指为解决适定性问题或过拟合而加入额外信息的过程。

在机器学习中，提前停止是一种在使用诸如梯度下降之类的迭代优化方法时，可对抗过拟合的正则化方法。这些迭代优化方法在每轮迭代过程中，都会使得模型更好地与训练集拟合。在某个节点之前，更好地拟合训练集使得模型在训练集之外的数据上表现得更好；但在该节点之后，更好地拟合训练集会增大泛化误差。提前停止相关规则给出停止迭代的条件，以便在模型开始过拟合之前停止迭代优化。提前停止相关规则已被用于多种机器学习方法。

剪枝是机器学习与搜索算法当中通过移除决策树中分辨能力较弱的部分而减小决策树大小的方法。剪枝降低了模型的复杂度，因此能够降低过拟合风险，从而降低泛化误差。