1 引言
1.1 研究背景
数据挖掘是从海量数据中以高度精确和高度可靠的手段挖掘和产生新的知识,这些新的知识将为决策者提供有力的科学决策依据。数据挖掘涉及多学科技术,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析等,已在医学、电信、零售业等科学或商业领域得到了成功应用。66201
作为一种常用的数据挖掘技术,聚类分析的典型应用有:在商业领域,聚类分析可以帮助市场人员发现顾客群中存在的不同特征的组群,并可以利用购买模式来描述这些具有不同特征的顾客群;在生物方面,聚类分析可以用来推导植物或动物所属的类别,也可以对基因进行处理以获得对种群中固有结构的认识;此外,聚类分析技术还可以帮助分类识别互联网上的文档,以便进行知识发现。聚类分析可以作为一个单独的工具,用以帮助分析数据的分布情况、了解各种数据的特征进而对所感兴趣的数据类进行进一步分析,也可以作为其它算法的预处理步骤,比如分类和定性归纳算法,然后这些算法可以在由聚类分析产生的结果上进行处理。由于各应用数据库所包含的数据量越来越大,人们对知识的渴求也越来越强烈,聚类分析已成为一个非常活跃的研究热点。鉴于以上认识,本文选择聚类分析算法为研究内容,重点研究基于划分的聚类分析技术和基于层次的聚类技术。
1.2 课题的主要研究内容
本文主要研究cure算法和K-means算法,在系统地归纳cure算法和K-means算法的一般原理、一般方法以及相关技术的基础上,对两种算法进行探索性的研究,同时进行比较,并将K-means算法应用于实际例子,本论文所研究的主要内容如下:
(1)对聚类进行较系统而完整的分析,包括聚类的概念、聚类算法、算法好坏的定量和定性分析以及聚类在其它各种领域的应用。
(2)分别对K-means算法和cure算法进行验证,对其结果进行分析,进而对算法进行更深入的阐述。
(3)利用K-means聚类算法,对学生成绩进行分类,以此为教育和因材施教提供依据。
1.3 论文结构安排
本文共分为五章,各章内容如下:
第一章:阐述本课题的研究背景、意义,并介绍了本课题的主要研究内容。
第二章:对数据挖掘和数据挖掘中的聚类分析进行论述,着重介绍了聚类分析算法的分类。
第三章:重点研究K-means聚类算法,阐述算法思想,并对其进行仿真,介绍了K-means算法在划分学生成绩中的应用。
第四章:重点研究了cure聚类算法,阐述算法思想,对算法进行仿真。并对K-means聚类算法和cure聚类算法进行比较。
2 数据挖掘中的聚类分析
2.1 数据挖掘概述
2.1.1 数据挖掘的基本概念
数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、有噪声的数据中,提取人们感兴趣的知识和信息的过程[1]。这些信息和知识是隐含的、人们事先不知道的、潜在有用的。
人们将数据看作形成知识的源泉,原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化及非结构化的,如图像数据、文本;甚至是分布在网络上的异构数据。发现知识的方法可以是数学的、非数学的、归纳的和演绎的。发现的知识可以用于查询优化、信息管理、决策支持和过程控制等,还可以进行数据自身的维护。它把人们对数据的应用从低层次的简单查询提升到从数据库中挖掘知识,提供决策支持。论文网 K-means聚类算法和cure算法学生成绩分类:http://www.751com.cn/jisuanji/lunwen_74018.html