您现在的位置：毕业论文 >> 论文 >> 正文

基于遗传算法的聚类分析算法第2页

更新时间：2012-2-16: 来源：毕业论文

2.研究现状2.1聚类2.1.1聚类问题
聚类是模式识别中的一个重要问题，是非监督学习的重要方法[3]。聚类是将物理或抽象对象的集合分成相似的对象类的过程。它是在没有训练数据样本的情况下，依据对象自身的相似性把一组对象划分成一系列有意义的子集的描述性任务。
聚类分析的目的是将若干特征模式按照它们之间的“相似度”划分为若干个集合，每个集合中的特征模式之间按照某种度量来说“相似”，而不同集合中的特征模式之间按相同的度量来说“不相似”。聚类分析关注于根据一些不同种类的度量构造一些相似的对象组成的群体。关键的是去确定对分析目标有利的对象分类方法。论文网http://www.751com.cn/
聚类分析是一种寻求数据的自然聚集结构的重要方法，增强了人们对客观世界的认识，是概念描述和偏差分析的先决条件。它的重要性体现在：首先，由于数据库中的数据经常不含有类标志，没有训练数据使得分类无法进行，而聚类是一种处理大量的、繁杂的、属性众多的且没有类标志数据的有效方法。其次，在知识发现的过程中，聚类经常被作为其他数据挖掘任务的前奏。利用聚类把整个数据集合分成不同的子集之后，其他的数据挖掘工具就更容易在聚类结果的基础上发现有用的规则和模式。
近年来，聚类作为一种基本的数据挖掘方法被广泛地应用于相似搜索、顾客划分、趋势分析、金融投资、地理信息系统、遥感图像和信息检索等领域中。
2.1.2常用聚类方法　
根据聚类的原理，可以将聚类分为划分聚类(partitional clustering)、层次聚类(hierarchical clustering )、基于密度的聚类(densily-bared clustering)及网格聚类(rid clustering)等[4]。下面介绍几种常用的聚类方法，算法的选择取决于数据的类型、聚类的目的和应用。
1. k-均值方法
基本算法：首先，选择K个初始质心，其中K是用户指定的参数，即所期望的簇的个数。每个点指派到最近的质心，而指派到一个质心的点集为一个簇。然后，根据指派到簇的点，更新每个簇的质心。重复指派和更新步骤，直到簇不发生变化，或等价地，直到质心不发生变化。
K均值简单并且可以用于各种数据类型。它也相当有效，尽管常常多次运行。K均值的某些变种甚至更有效，并且不太受初始化问题的影响。然而，K均值并不适合所有的数据类型。它不能处理非球形簇、不同尺寸和不同密度的簇，尽管指定足够大的簇个数时它通常可以发现纯子簇。对包含离群点的数据进行聚类时，K均值也有问题。在这种情况下，离群点检测和删除大有帮助。最后，K均值仅限于具有中心（质心）概念的数据。
2. k-中心点方法
　采用簇中位置最中心的对象，作为参照点即中心点，这样划分依然是基于最小化所有对象与参照点之间的相异度之和的原则来执行的。这是k-中心点的基础。它的基本策略是：首先为每个簇随意选择一个代表对象；剩余对象根据与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象，以改进聚类的质量。聚类结果的质量用一个代价函数来估算，该函数度量对象与参照对象之间的平均相异度。
当存在噪声和离群点时，k-中心点比k-均值更鲁棒，这是因为中心点不像均值那样容易受到离群点或其他极端值影响。然而，k-中心点的执行代价比k-均值方法高。这两种方法都要求用户指定结果簇的数目K。
　这些启发式方法对中小规模的数据库中发现球状簇很实用。为了对大规模的数据集进行聚类，以及处理复杂形状的聚类，基于划分的方法需要进一步的扩展。

上一页 [1] [2] [3] [4] [5] [6] [7] 下一页