2.主成分分析方法
2.1主成分分析方法介绍
2.1.1基本思想
主成分分析最早是由美国统计学家Karl Pearson在1901年的生物学理论研究中引入的。使用降维的方法,把原来多个变量化为少数几个综合指标的一种统计分析方法。该方法的基本思想是在损失较少信息的前提下,使用较少的变量来代替原有的较多的变量,使数据结构简化论文网。通常把简化后的综合指标称为主成分,各主成分是原解释变量的线性表示,且互不相关。运用主成分分析法研究相关问题时,只需要研究具有代表性的综合因子,这在很大的程度上简化了问题。
2.1.2基本原理
将研究对象原来的p个指标作线性组合,第一个线性组合,即第一个新的综合指标,记为*751`文~论|文/网www.751com.cn ,其他线性组合形成的新的综合指标依次记为 , ,…… 。其中, 包含的信息量最大,即在原指标的所有线性组合中所生成的新的综合指标的方差是最大的,我们把 称为第一主成分。 是除了以外包含信息最多的指标。这里我们要注意,其中 所包含的信息不需要再出现在 中,即, 和 的协方差为零,我们称 为第二主成分。依次类推,可以得到第三、第四……第P个主成分,且 , …… 之间互不相关,同时他们的方差依次减小。
2.1.3数学模型
假设对某一事物的研究涉及了P个指标,分别记为 , …… ,那么,n个样本就可以构成一个 阶的数据矩阵,表示为: 。
经过处理后得到新的综合指标,其模型表示如下:
其中 , ,……, 为X的协方差阵Σ的特征值所对应的特征向量, , , ……, 是原始变量经过标准化后得到的值,实际上,在分析处理一些具体问题时,都要先将原始数据进行标准化,因为所选指标之间的量纲往往会不同。