(2) 为减少获得局部最优解所需要访问的城市数量, 对蚁群采用模拟退火策略;
(3) 使用锦标赛(tournament)选择策略。
5.2设计聚类算法的准则
通过上面对聚类算法的分析,我们可以看出各种算法各自有其优点和不足,我们在设计聚类算法时,应当以下的准则 :可伸缩性、处理不同类型属性的能力、发现任意形状的聚类、用于决定输入参数的领域知识最小化、处理噪声数据的能力、对于输入记录的顺序不敏感、高文性、基于约束的聚类、可解释性和可用性。
6.聚类在数据挖掘中的应用
6.1聚类距离与相似系数
为了度量分类对象之间的接近与相似程度,需要定义一些分类统计量,常用的分类统计量有距离和相似系数。距离是聚类分析常用的分类统计量。对于有P个变量的样品来说,一个样品可以视为P文空间中的疗个点,自然可以设想用点间距离度量样品间的接近程度。常用d。表示第f个样品与第J个样品间的距离。作为点间距离应满足以下条件:非负性、对称性、满足三角不等式[8]。
6.2聚类的特征与聚类间的距离
聚类是相似事物的集合。从数学的角度,难以给出一种通用的严格定义。
聚类间距离也有多种定义形式:
(1)最短距离发。他定义两类中最靠近的两个元素间的距离为类间距离,
即为:DS =(a,b)= min
(2)最长距离法。他定义两类中最靠近的两个元素间距离为类间距离本文来自辣|文,论~文'网,
毕业论文 www.751com.cn 加7位QQ324_9114找源文,
为:DL =(a,b)= max
(3)重心法。它定义两类的两个重心间的距离为类间距离,即为:DC =(a,b)
(4)类平均法。他将两类中任意两个元素间的距离的平均值定义为类间距离,即为:DG(a,b)=
(5)离差平方和法。用类中各元素指标的离差平方和的总和得到两类与的直径分别是和Db,类G=Y,则可定义类间距离的平方为:
7.K-means算法分析及改进
7.1、经典的K-means算法
K-means聚类问题的假设是有一组N个数据的集合X={x1,x2,x3,…, }待聚类。K-means聚类问题是要找到X的一个划分={C1,C2,C3,…,Ck},使目标函数f()=最小。其中,mi=1/ni,表示第个簇中心位置,=1,…,k;是簇中数据项的个数;表示xi到mi的距离。通常的空间聚类算法是建立在各种距离基础上的,如欧几里得距离、曼哈顿距离和明考斯距离等。其中,最常用的是欧几里得距离[9]。
上一页 [1] [2] [3] [4] [5] [6] 下一页
数据挖掘中的聚类算法的研究_聚类在数据挖掘中的应用 第5页下载如图片无法显示或论文不完整,请联系qq752018766