模糊聚类法
模糊聚类分析法通过研究对象本身的性质来构造模糊矩阵,依据一定的隶属函数和隶属关系来确定聚类关系。模糊聚类先将样本分成多个类,依据“最小化类间相似性,最大化类内相似性”原则,使各个类之间的数据差别应尽可能大,类内间的数据差别应尽可能小。模糊聚类法多用于定性变量的分析。
K-均值聚类法
K-均值聚类算法是非谱系聚类法,它先随机选取K个初始的集合,然后计算样品与各个集合之间的距离,把样品分配给距离它最近的集合。集合以及分配到的元素就代表一个聚类。当全部的元素都被分配了,将K个集合重新计算,反复进行该过程,直到满足某个终止条件。例如没有样本可以被重新分配给不同的聚类或者是没有集合可以再发生变化。
有序样品聚类法
有序样本聚类法又被称为最优分段法。在1958年由费歇提出了该方法。有序聚类分析是将n个样品按照一定的规律排列次序,其中按时间顺序排列样本比较多见。
对比以上,几种不同的聚类方法,可以发现系统聚类法虽然非常细致,且聚类的方法多样,可以通过最短距离、最长距离、重心法等多种方法判别,但是对于大学生综合素质测评这样数据较大的样本不容易操作且根据不同方法可以得到不一样的结果,使得结果较难统一。K-均值聚类法虽然快速高效,但是需要对均值给出定义,大学生综合素质测评可能出现一些过大的异常值,会对结果带来很大影响。有序样品聚类主要用于有一定的时间先后较为明显的特点的样品,而大学生综合素质测评较为困难找到科学的规律排列。因此,根据以上的分析,本文主要采用模糊聚类法对大学生综合素质测评进行评判。
4.模糊聚类模型
4.1模糊聚类简介
在用模糊聚类方法进行大学生综合测评前,本文先介绍一些聚类中的概念。
模糊聚类先将样本分成多个类,依据“最小化类间相似性,最大化类内相似性”原则,使各个类之间的数据差别应尽可能大,类内间的数据差别应尽可能小。模糊聚类法多用于定性变量的分析。
一组复杂的数据中必定有一定的相关性,聚类分析就是根据其的相关性进行度量。因此,把这样的相关性称为指标。
现设有i个样品,用x表示样品,x_ij表示第i 个样品的第j 个指标值,且第j个的均值和标准差记作x ̅_j和S_J。另外,d_mn表示第m个样品与第n个样品之间的距离