特征选择 编辑
机器学习统计学中,特征选择也被称为变量选择、属性选择 或变量子集选择 。它是指:为了构建模型而选择相关特征子集的过程。使用特征选择技术有三个原因:
1
相关
在机器学习和统计学领域,降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。 降维可进一步细分为特征选择和特征提取两大方法。
在统计学和机器学习中,Lasso算法是一种同时进行特征选择和正则化的回归分析方法,旨在增强统计模型的预测准确性和可解释性,最初由斯坦福大学统计学教授Robert Tibshirani于1996年基于Leo Breiman的非负参数推断提出。Lasso算法最初用于计算最小二乘法模型,这个简单的算法揭示了很多估计量的重要性质,如估计量与岭回归和最佳子集选择的关系,Lasso系数估计值和软阈值之间的联系。它也揭示了当协变量共线时,Lasso系数估计值不一定唯一。