At the end of this paper, At the end of this paper, we present a summary and prospect on the previous article.
Keywords: Data mining; clustering algorithm; K-means; partition.
目录
1.绪论 5
1.1研究背景和意义 5
1.3研究内容和研究方法 6
2聚类算法 6
2.1聚类的定义和主要研究的问题 6
2.1.1聚类的定义 6
2.1.2聚类主要研究的问题 7
2.2典型的聚类方法 7
2.2.1基于划分的聚类方法 7
2.2.2基于层次的聚类方法 8
2.2.3基于密度的聚类方法 8
2.2.4基于网格的聚类方法 9
2.2.5基于模型的聚类方法 9
3.K-means算法 9
3.1K-means聚类算法描述 9
3.1.1K¬-means聚类算法基本思想 10
3.1.2 K-means聚类算法主要流程 10
3.2 K-means 聚类算法研究现状 11
3.3 K-means聚类算法应用举例 12
3.3.1 K-means聚类算法二维数据的聚类应用 12
3.3.2 K-means文档聚类算法的应用 14
3.4 K-means聚类算法的主要缺陷分析 17
4.总结与展望 18
参考文献 19
致谢 20
1.绪论
1.1研究背景和意义
近年来,随着计算机科学和信息技术的高速发展,在银行、保险业、移动通信、生物技术、金融投资等行业每天都会有数以千计万计的数据在产生,大型数据库的应用,以及数据库的应用范围和深度在不断扩大,大数据时代已经到来。海量的数据蕴含了各种各样的,光凭人的直和经验无法获取的重要信息。如今,人们面临的主要问题不再是缺乏信息可以利用,而是如何从能够众多的资源数据中发现有用的信息,在数据分析的基础上进行科学探索、医学研究或者企业管理等活动。在此基础上,出现了数据挖掘与信息发现技术,并取得了蓬勃的发展,显示了强大的生命力。
数据挖掘是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘就是从大量的数据中揭示出其隐含的、先前未知的,并且是具有潜在利用价值的信息的过程。本文将介绍数据挖掘中非常重要的一个分支聚类算法分析。
1.2国内外研究现状
聚类分析作为统计学中的一个重要分枝,已经有几十年的研究历史了,目前研究人员所进行的研究主要是集中在基于距离的聚类分析上,为大型数据库的有效使用和实际的聚类分析寻求最适当的方法,目前的研究方向主要包括:(1)算法对初始值的选择敏感度问题;(2)提高算法效率的问题;(3)基于不同数据库的算法研究问题等。
K-means聚类算法是最常见的聚类算法之一。因结构简单、快速高效且适用于处理大数据集,在众多科研领域得到广泛的应用。但它同时一也存在着一些缺陷和不足,例如聚类数目K 值需事先给定、聚类结果对初始聚类中心的选取敏感、易陷入局部最优解、难以发现球状簇以外其他形状的簇、对孤立点数据十分敏感等问题。在 K-means聚类算法的发展过程中,为了弥补它的缺陷和不足,国内外的研究人员提出了各种各样的有效改进措施,在众多科研领域获得了广泛的应用。