其中:
极端值差: 平均值:
标准差: 有了第 个指标的极端值 、平均值 和标准差 ,就可以将每一个指标数据标准化,标准化公式如下:
此外,为克服量纲带来的影响,统计学家兰斯和威廉姆斯还提出了兰氏距离。
兰氏距离为:
出了兰氏距离外,上世纪四十年代印度统计学家马哈拉洛比斯还提出了一种新的距离定义和算法。后人为纪念这位伟大的统计学家,一般讲这种距离成为马氏距离。
计算公式:
其中 表示矩阵行向量的转置, 是被处理数据的协方差矩阵。马氏距离很好地解决了两个问题。第一跟兰氏距离一样,马氏距离可以很好的排除量纲对系统聚类的影响;第二除了能很好的排除量纲对系统聚类的影响外,马氏距离还可以减少由于指标间的相关性而带来的影响。源'自-751;文,论`文'网]www.751com.cn
2.1.3系统聚类法的流程
第二章的2.1.2节中用通俗易懂的话讲述了系统聚类法的原理。第二章的2.1.2节详细介绍了系统聚类分析方法中运用的到距离的概念以及期间距离的算法和公式,第二节完成了系统聚类法中样本数据的预处理。在本节中,我们主要讲一下系统聚类法的流程。
系统聚类方法的流程主要分为六个步骤,在完成样本数据的预处理后。我们选择一种适合于研究问题的距离,现实操作中最常用马氏距离。选定距离后,我们借助SPSS等一些统计软件计算所研究样品两两间的距离。假设有个样本,最初我们就构建各类,将距离最小的两个样本放在一起,这样就有个类。在计算心累与当前各类的距离,将距离最小的两个类放在一起,以此类推,直至将所有的样本归为一个类。当把所有的数据最后归为一类的时候,就会产生一个聚类图,根据研究问题的实际和背景决定分类的类与个数。为简化通俗易懂,