图2.1数据挖掘的过程
2.3数据挖掘涉及的主要技术
数据挖掘是从存放在数据库、数据仓库或其它数据源中的大量数据中挖掘有趣知识的过程。一般情况下,一种数据挖掘算法不可能适合所有的挖掘问题的需要。一种算法可能只适合特定的问题和特定的领域。本文来自辣|文,论~文'网,
毕业论文 www.751com.cn 加7位QQ324_9114找源文
数据挖掘过程中常用的算法包括:关联规则、分类算法、预测、聚类分析、组合学习技术以及 Web 挖掘和文本挖掘算法等内容。
3.聚类分析技术
3.1 聚类分析的定义
聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。 聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。
3.2 聚类分析中的数据结构
许多基于内存的聚类算法选择两种有代表性的数据结构:数据矩阵和相异度矩阵。
3.3聚类分析中的数据类型
聚类分析起源于统计学,但数据挖掘的对象复杂多样,要求聚类分析的方法不仅能够对属性为数值类型的数据进行,而且要适应数据类型的变化。通常,在数据挖掘中,对象属性经常出现的数据类型有:区间标度变量,二元变量,标称型、序数型和比例标度型变量以及混合类型的变量[5]。
4.传统聚类算法
传统的聚类算法主要有:串行聚类算法和并行聚类算法。
4.1串行聚类算法
串行聚类算法又分为:划分方法(partitioning method)、层次方法(hierarchical method)、基于密度的方法(density-based method)、基于网格的方法(grid-based method)、基于模型的方法(model-based method)。
4.1.1划分方法(partitioning method)
划分方法首先根据给定要构建划分的数目k创建一个初始划分,然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。常见的划分方法有K-means(K-means)算法和K-中心点(K-MEDOIDS)算法两种。
4.1.2 层次方法(hierarchical method)
层次方法对给定数据对象集合进行层次的分解。根据层次的分解如何形成,层次的方法可以分为凝聚的和分裂的。凝聚的方法,也称为自底向上的方法,一开始将每个对象作为单独的一个组,然后相继地合并相近的对象或组,直到所有的组合并为一个(层次的最上层),或者达到一个终止条件。分裂的方法,也称为自顶向下的方法,一开始将所有的对象置于一个簇中,在迭代的每一步中,一个簇被分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者达到一个终止条件。
主要的凝聚聚类算法有CURE,CHAMELEON,BIRCH,ROCK等。
4.1.3 基于密度的方法(density-based method)
上一页 [1] [2] [3] [4] [5] [6] 下一页
数据挖掘中的聚类算法的研究_聚类在数据挖掘中的应用 第3页下载如图片无法显示或论文不完整,请联系qq752018766