聚类 - The mini wiki

聚类编辑

聚类分析亦称为分析，是对于统计数据分析的一门技术，在许多领域受到广泛应用，包括机器学习，数据挖掘，模式识别，图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集，这样让在同一个子集中的成员对象都有相似的一些属性，常见的包括在坐标系中更加短的空间距离等。

9

相关

k-均值算法源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把

n

{\displaystyle n}

个点划分到k个聚类中，使得每个点都属于离他最近的均值对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。

在机器学习与数据挖掘领域，轮廓指的是一种反映数据聚类结果一致性的方法，可以用于评估聚类后簇与簇之间的离散程度。轮廓的取值范围为[-1, +1]，如果某一样本的轮廓接近1，则说明样本聚类结果合理；如果接近-1，则说明其更应该分类到其他的簇；如果轮廓近似为0，则说明该样本在两个簇的边界上。所有样本轮廓的均值称为聚类结果的轮廓系数，是该聚类是否合理、有效的度量。

在机器学习与数据挖掘领域，轮廓指的是一种反映数据聚类结果一致性的方法，可以用于评估聚类后簇与簇之间的离散程度。轮廓的取值范围为[-1, +1]，如果某一样本的轮廓接近1，则说明样本聚类结果合理；如果接近-1，则说明其更应该分类到其他的簇；如果轮廓近似为0，则说明该样本在两个簇的边界上。所有样本轮廓的均值称为聚类结果的轮廓系数，是该聚类是否合理、有效的度量。

k-均值算法源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把

n

{\displaystyle n}

个点划分到k个聚类中，使得每个点都属于离他最近的均值对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。

k-均值算法源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把

n

{\displaystyle n}

个点划分到k个聚类中，使得每个点都属于离他最近的均值对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。

k-均值算法源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把

n

{\displaystyle n}

个点划分到k个聚类中，使得每个点都属于离他最近的均值对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。

k-均值算法源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把

n

{\displaystyle n}

个点划分到k个聚类中，使得每个点都属于离他最近的均值对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。

k-均值算法源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把

n

{\displaystyle n}

个点划分到k个聚类中，使得每个点都属于离他最近的均值对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。

k-均值算法源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把

n

{\displaystyle n}

个点划分到k个聚类中，使得每个点都属于离他最近的均值对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。

k-均值算法源于信号处理中的一种向量量化方法，现在则更多地作为一种聚类分析方法流行于数据挖掘领域。k-平均聚类的目的是：把

n

{\displaystyle n}

个点划分到k个聚类中，使得每个点都属于离他最近的均值对应的聚类，以之作为聚类的标准。这个问题将归结为一个把数据空间划分为Voronoi cells的问题。