聚类分析 编辑
聚类分析亦称为分析,是对于统计数据分析的一门技术,在许多领域受到广泛应用,包括机器学习数据挖掘模式识别图像分析以及生物信息。聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。
6
图片 0 图片
评论 0 评论
匿名用户 · [[ show_time(comment.timestamp) ]]
[[ nltobr(comment.content) ]]
相关
无监督学习,又称非监督式学习,是机器学习的一种方法,没有给定事先标记过的训练范例,自动对输入的资料进行分类或分群。无监督学习的主要运用包含:聚类分析、关联规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。
分化群是一用于细胞表面分子的鉴定和调查的协议或公约,该议定提供细胞免疫表型分类的靶点。由于这些靶点分子能反映细胞谱系特有分化的不同阶段,且此协议是将不同实验室的单克隆抗体所识别的同一靶点抗原,以流式细胞术及聚类分析方法统整并分群,因此这些靶点分子被称为分化群分子或分化群抗原;它们多为糖蛋白分子。
统计分类是机器学习非常重要的一个组成部分,它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类是监督学习的一个实例,根据已知训练集、验证集和测试集提供的样本,通过计算选择特征参数,建立线性判别分析以对样本进行的分类。与之相对的是无监督学习,例如聚类分析
无监督学习,又称非监督式学习,是机器学习的一种方法,没有给定事先标记过的训练范例,自动对输入的资料进行分类或分群。无监督学习的主要运用包含:聚类分析、关联规则、维度缩减。它是监督式学习和强化学习等策略之外的一种选择。
统计分类是机器学习非常重要的一个组成部分,它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类是监督学习的一个实例,根据已知训练集、验证集和测试集提供的样本,通过计算选择特征参数,建立线性判别分析以对样本进行的分类。与之相对的是无监督学习,例如聚类分析
分化群是一用于细胞表面分子的鉴定和调查的协议或公约,该议定提供细胞免疫表型分类的靶点。由于这些靶点分子能反映细胞谱系特有分化的不同阶段,且此协议是将不同实验室的单克隆抗体所识别的同一靶点抗原,以流式细胞术及聚类分析方法统整并分群,因此这些靶点分子被称为分化群分子或分化群抗原;它们多为糖蛋白分子。
邻接法,生物信息学术语,是一种用于构建系统发生树的快速聚类分析方法,由日本遗传学家斋藤成也和日裔美国生物学家根井正利二人在1987年创立。使用邻接法构建演化树时,通常需要基于核酸序列或蛋白质数据,以此了解每对分类单元之间的距离,通过确定距离最近的成对分类单元使演化树的总距离达到最小,循环地将相邻点合并成新的点,最终形成完整的树型。
向量量化是一个在讯号处理中的一个量化法,其为借由样本向量的训练来估算密度几率函数,并借由此密度函数推估最有效的量化方案。此技术原用于资料压缩,透过分割大数量的资料点,让每个小聚类分析都有相同的资料点,而这些小群集的所有资料就由其正中央的点作为代表,这点与K-means以及其他群集分析的特性相当。
向量量化所使用的密度分布法的优势在于,此种压缩法对于高几率出现的资料误差小,而对低几率的资料误差大,故特别适用于大量且高维度的向量破坏性资料压缩。
向量量化是竞逐式学习的一种技巧,故与深度学习的自编码器其中使用的自组织对应以及稀疏神经编码有关系。
BIRCH是一个非监督式学习聚类分析,于1996年由 Tian Zhang 提出。算法的优势在于能够利用有限的内存资源完成对大数据集的高质量的聚类。该算法通过构建聚类特征树,在接下来的聚类过程中,直接对聚类特征进行聚类,而无需对原始数据集进行聚类。因此在多数情况下只需要扫描一次数据库即可进行聚类,IO成本与数据集尺寸呈线性关系。
统计分类是机器学习非常重要的一个组成部分,它的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。分类是监督学习的一个实例,根据已知训练集、验证集和测试集提供的样本,通过计算选择特征参数,建立线性判别分析以对样本进行的分类。与之相对的是无监督学习,例如聚类分析