凝聚的层次聚类
凝聚的层次聚类的层次分解是自底向上(合并)的策略,首先将每个对象作为单独的一个簇,相继合并两个最接近的簇,直到所有的对像都在一个簇中,或者达到某个终止条件。算法的关键操作室计算两个簇之间的邻近度。本文来自辣.文~论~文·网原文请找腾讯32,49114
使用这类算法是因为基本应用(如创建一种分类法)需要层次结构。此外,有些研究表明,这些算法能够产生较高质量的聚类。然而,就计算量和储存需求而言,凝聚层次聚类算法是昂贵的,不能视为全局优化一个目标函数。所有合并都是最终的,对于噪声、高文数据(如文档数据),这也可能造成问题。
层次聚类方法尽管简单,但经常会遇到合并或分裂点选择的困难。这样的选择是非常关键的,因为一旦一组对象合并或分裂,它就不能被撤销,下一步的处理将在新完成的簇上进行。这个严格规定是有用的,由于不用担心组合数目的不同选择,计算代价会比较小。但是,已做的处理不能被撤消,聚类之间也不能交换对象。如果在某一步没有很好的选择合并或分裂的决定,可能会导致低质量的聚类结果。而且,这种聚类不具有很好的可伸缩性,因为合并或分裂的决定需要检查和估算大量的对象或簇。
4. DBSCAN
绝大多数划分方法给予对象之间的距离进行聚类。这样的方法只能发现球状的簇,而在发现任意形状的簇上遇到了困难。随之提出了基于密度的聚类方法,它是将簇看作是数据空间中被低密度区域分割开的高密度区域。
DBSCAN(Density-Based Spatal Clustering of Applications with Noise,具有噪声的基于密度的聚类应用)是一个有代表性的基于密度的方法,它根据一个密度阀值来控制簇的增长。DBSCAN使用基于中心的方法,数据集中特定点的密度通过对该点Eps半径之内的点技术来估计。该方法实现简单,但是点的密度依赖于指定的半径。DBSCAN算法的基本思想是:任意两个足够靠近(相互之间的距离在Eps之间)的核心点将放在同一个簇中。类似的,任何与核心点足够靠近的边界点也放到与核心点相同的簇中。(如果一个边界点靠近不同簇的核心点,则可能需要解决平局问题。)噪声点被丢弃。
DBSCAN的显著特点是聚类速度快,
论文网http://www.751com.cn/ 对噪声不敏感,能发现空间中任意形状的聚类,但是该算法存在以下缺点。聚类的结果与参数有很大的关系,如果密度阀值太大,就会把一个聚类分割成几个,如果密度阀值太小,则会将距离较远的几个聚类合并起来; DBSCAN用固定的参数识别聚类,当聚类的稀疏程度不同时,如果用相同的判断标准就可能破坏聚类的自然结构;DBSCAN的聚类定义以两种关系为基础:密度连通和密度可达,前者是对称非传递的,后者是传递非对称的,定义中存在的极大性和连通性的矛盾可能会把一个连通的聚类分割成两个聚类;DBSCAN算法在处理高文数据时性能下降;最后,当近邻计算需要计算所有的点对邻近度时,DBSCAN可能是开销很大的。
2.2遗传算法
2.2.1算法思想
1.基本内容
遗传算法是一种借鉴生物界自然选择和进化机制发展起来的具有自适应性和自组织能力的搜索算法,被广泛应用于求解复杂的优化问题[5]。它摒弃了传统的搜索方式,模拟自然界生物进化过程,采用人工进化的方式对目标空间进行随机化搜索。它将问题域中的可能解看作是群体的一个个体或染色体,并将每一个体编码成符号串形式,模拟达尔文的遗传选择和自然淘汰的生物进化过程,对群体反复进行基于遗传学的操作(遗传,交叉和变异),根据预定的目标适应度函数对每个个体进行评价,依据适者生存,优胜劣汰的进化规则,不断得到更优的群体,同时以全局并行搜索方式来搜索优化群体中的最优个体,求得满足要求的最优解。
上一页 [1] [2] [3] [4] [5] [6] [7] 下一页
基于遗传算法的聚类分析算法 第3页下载如图片无法显示或论文不完整,请联系qq752018766