聚类算法分析+文献综述(2)

菜单

At the end of this paper, At the end of this paper, we present a summary and prospect on the previous article.

Keywords: Data mining; clustering algorithm; K-means; partition.

1.绪论 5

1.1研究背景和意义 5

1.2国内外研究现状 5

1.3研究内容和研究方法 6

2聚类算法 6

2.1聚类的定义和主要研究的问题 6

2.1.1聚类的定义 6

2.1.2聚类主要研究的问题 7

2.2典型的聚类方法 7

2.2.1基于划分的聚类方法 7

2.2.2基于层次的聚类方法 8

2.2.3基于密度的聚类方法 8

2.2.4基于网格的聚类方法 9

2.2.5基于模型的聚类方法 9

3.K-means算法 9

3.1K-means聚类算法描述 9

3.1.1K¬-means聚类算法基本思想 10

3.1.2 K-means聚类算法主要流程 10

3.2 K-means 聚类算法研究现状 11

3.3 K-means聚类算法应用举例 12

3.3.1 K-means聚类算法二维数据的聚类应用 12

3.3.2 K-means文档聚类算法的应用 14

3.4 K-means聚类算法的主要缺陷分析 17

4.总结与展望 18

参考文献 19

致谢 20

1.绪论

1.1研究背景和意义

近年来，随着计算机科学和信息技术的高速发展，在银行、保险业、移动通信、生物技术、金融投资等行业每天都会有数以千计万计的数据在产生，大型数据库的应用，以及数据库的应用范围和深度在不断扩大，大数据时代已经到来。海量的数据蕴含了各种各样的，光凭人的直和经验无法获取的重要信息。如今，人们面临的主要问题不再是缺乏信息可以利用，而是如何从能够众多的资源数据中发现有用的信息，在数据分析的基础上进行科学探索、医学研究或者企业管理等活动。在此基础上，出现了数据挖掘与信息发现技术，并取得了蓬勃的发展，显示了强大的生命力。

数据挖掘是目前人工智能和数据库领域研究的热点问题，所谓数据挖掘就是从大量的数据中揭示出其隐含的、先前未知的，并且是具有潜在利用价值的信息的过程。本文将介绍数据挖掘中非常重要的一个分支聚类算法分析。

1.2国内外研究现状

聚类分析作为统计学中的一个重要分枝，已经有几十年的研究历史了，目前研究人员所进行的研究主要是集中在基于距离的聚类分析上，为大型数据库的有效使用和实际的聚类分析寻求最适当的方法，目前的研究方向主要包括：(1)算法对初始值的选择敏感度问题；(2)提高算法效率的问题；(3)基于不同数据库的算法研究问题等。

K-means聚类算法是最常见的聚类算法之一。因结构简单、快速高效且适用于处理大数据集，在众多科研领域得到广泛的应用。但它同时一也存在着一些缺陷和不足，例如聚类数目K 值需事先给定、聚类结果对初始聚类中心的选取敏感、易陷入局部最优解、难以发现球状簇以外其他形状的簇、对孤立点数据十分敏感等问题。在 K-means聚类算法的发展过程中，为了弥补它的缺陷和不足，国内外的研究人员提出了各种各样的有效改进措施，在众多科研领域获得了广泛的应用。