2 预备知识与数据的选取
2.1 聚类分析
聚类分析将个体或者对象进行分类,使得同一类中的对象之间的相似性比其他类的相似性更强。目的在于使类间对象的同质性最大化和类与类间对象的差异性最大化,聚类分析是统计学中用以研究“物以类聚”问题的多元统计方法。
聚类分析不仅可以用来对样品进行分类(Q型聚类分析),也可以用来对变量进行分类(R型聚类分析)。本文采用的是Q型聚类分析。在一些社会、经济问题中,我们面临的研究对象往往比较复杂,如果能把相似的样品(或指标)归成类,那么处理起来相对方便,聚类分析的目的就是将相似的对象归为一类。
2.1.1 系统聚类
系统聚类又有凝聚方式聚类和分解方式聚类两种,SPSS中的系统聚类采用的是凝聚方式,其过程是:
1:计算 个样品两两间的距离 ,记作 ;
2:构造 个类,每个类只包含一个样品;
3:合并距离最近的两类为一个新类;
4:计算新类与当前各类的距离;
5:画聚类图;
6:决定分类个数和类。
兰斯和威廉姆斯在1967年针对系统聚类法给出了统一的公式:
其中, , , , 对于不同的聚类方法有不同的取值,常用有最短距离法、中间距离法、重心法。如下表所示:方法
最短距离法 1/2 1/2 0 -1/2
中间距离法 1/2 1/2 -1/4 0
重心法 / 源/自:751:`论~文'网www.751com.cn
本文采用中间距离法。
2.1.2 K—均值法
K—均值法又称快速聚类法,它将数据看成k维空间上的点,以距离作为测度个体“亲疏程度”的指标,并以牺牲多个解为代价换得高的执行效率。麦克奎因(Macqueen)于1967年提出该方法。该方法的思想是把每个样品聚集到其近形心类中去,其过程是:
1:把样品粗略分成K个初始类;
2:进行修改,逐个分派样品到其最近均值的类中去(通常用标准化数据或非标准化数据计算欧式距离)。重新计算接受新样品的类和失去样品的类的形心(均值);
3:重复第二步,直到各类无元素进出。
2.2 样本数据的选择
空气质量指数(Air Quality Index,简称AQI)定义为定量描述空气质量状况的无量纲指数,针对单项污染物的还规定了空气质量分指数(Inpidual Air Quality Index,简称IAQI)。AQI指数也只表征污染程度,并非具体污染物的浓度值。由于AQI评价的6种污染物浓度限值各有不同,在评价时各污染物都会根据不同的目标浓度限值折算成空气质量分指数AQI。相关部门可以利用空气质量指数直观地评价大气环境质量状况,并且更为方便的控制和管理空气污染。
AQI就是各项污染物空气质量分指数中的最大值。当AQI大于50时,IAQI最大的污染物为首要污染物,若IAQI最大的污染物为两项或两项以上时,并列为首要污染物。
而在6项污染物中, 折算成IAQI为500的浓度限值,也刚好是500微克/立方米。也就是说,一旦 的日均浓度超过500微克/立方米,AQI随即达到500,无论浓度再怎么高,AQI也还是500。因此,严重雾霾期间, 日均浓度超过500微克/立方米的地方,就“爆表”了。