聚类算法是数据挖掘中的一种算法。聚类的用途非常广泛。在商业上,聚类可以根据不同消费者的消费习惯来对消费群体归类,对此可制定有针对性的消费活动;在生物学中,聚类被用来辅助动植物方面的研究,找出具有相似功能的基因,从而对基因组聚类;在气候分析中,聚类可用来发现极地和海洋大气压力模式对陆地气候的影响;在网络挖掘中,可用来对WWW上的不同类型的文档聚类。
能够处理分析巨大复杂的数据集是数据挖掘一种典型的特点,这就是向对聚类分析技术的研究抛出了难题,要求算法拥有可扩展性、能够处理不一样类别的数据、可以处理分析高文的数据等方面的能力。根据潜在的各项应用,数据挖掘对聚类分析提出了不同的要求。因此,研究聚类分析算法的意义重大。
1.2 国内外研究现状
1.3 本文的主要内容和结构安排
本文系统的讲述了聚类分析的基本分类,介绍聚类中的几种算法。参考查阅资料后,总结分析了几种经典算法的性能。详细介绍了划分法中的k-means算法的过程,并对其提出了改进,简单介绍了层次方法中的CURE算法。
本文的结构安排如下:
第一章绪论,简要介绍了本文的课题背景,国内外的研究现状以及论文的主要内容和结构安排。
第二章聚类分析,介绍了聚类分析的基本原理和一般步骤,介绍了几种典型的聚类算法,查阅了相关资料,对其性能做了总结归纳。
第三章详细介绍了k-means算法,并且提出了集中初值选取的方法,对初值的选取提出了一种改进的k-means算法。之后又简单介绍了层次方法中的CURE算法。
第四章对Iris数据集的聚类,并对对结果进行了分析。
第五章结论。
2 聚类分析的概述
聚类是数据挖掘中的一种主要方法,用于对数据库中未知的数据进行分类。通过聚类过程,把一组数据对象分成多个类别,在同一个类别里的数据尽可能的相似,并且类别之间的尽可能不相似。与分类不同的是,聚类操作中要划分的类事先是未知的,累的形成完全是数据驱动的,属于一种无监督学习方法。
自20世纪70年代以来,人们对聚类分析有了较深的研究。最近几年来,随着数据挖掘技术的发展,对聚类的研究又一次掀起了热潮。聚类就是从大量的数据集中智能的和自动的抽取出有价值的聚类知识。能够处理复杂的大数据是数据挖掘的一个特点,这对聚类算法技术提出了挑战。
2.1 聚类分析的基础知识
假设有 的数据矩阵X,矩阵X为:
X= (2.1)
其中 表示第 个的样本的第 个特征变量。
第 个变量的平均值表示为:
其中 (2.2)
对第j个变量的n个数据实施中心变换为:
,其中i=1,2,3,n (2.3)
经过本变换的变量的均值将为0,即各变量的取值都有共同的基点。
所谓的标准化是中心化的基础上再做变化,它要使各个变量的变化范围相等。
聚类分析算法研究k-means算法(2):http://www.751com.cn/jisuanji/lunwen_14189.html