主成分分析由卡尔·皮尔逊于1901年发明,用于分析数据及建立数理模型。PCA是最简单的以特征量分析多元统计分布的方法。PCA提供了一种降低数据维度的有效办法,主成分分析在分析复杂数据时尤为有用,比如人脸识别。PCA是最简单的以特征量分析多元统计分布的方法。PCA跟因子分析密切相关,并且已经有很多混合这两种分析的统计包。而真实要素分析则是假定。
设有 个指标,分别用 表示,随机向量为
设随机向量X的均值为 ,协方差矩阵为 。对随即向量进行线性变换,可以形成新的综合变量,即新得出的变量可以由原变量线性表示,即满足下式:
为了取得较好的结果,我们希望 的方差尽可能大且各 之
间相互独立,由于
而对任意常数C有
因此对 不加限制时,可使 任意增大,问题将变得没有意义。我们将线性变换约束在下列条件下:
1、 ,即 ( =1,2,3…, )。
2、 与 相互无关( ; , =1,2,…, )。
3、 是 的一切满足原则1的线性组合中方差最大者; 是与 不相关的 所有线性组合中方差最大者;…, 是与 都不相关的 的所有线性组合中方差最大者。
基于上述三条原则,我们所得出的主成分变量 。其中,各综合变量在总方差中占得比重依次递减。
2 主成分问题求解步骤及解释
2.1 相关性检验
主成分分析的目的是降维,从数目众多的原始变量中提取数目较少的综合变量即主成分,要求这些主成分反映原始变量的大部分信息。如此这般,原始变量必然是相关的,否则无法降维的,因此主成分分析的前提条件是原始变量间具备某种程度的相关。在进行提取因子分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部分相关系数小于0.3,则不适合做因子分析即主成分分析。相关性检验的方法不唯一。本文研究时采验(correlation matrix)。
这里也需进一步指出,从相关矩阵求得的主成分与协方差矩阵求得的主成分一般情况下是不同的。实际表明,这种差异有时很大。如果个指标间的数量级差很大,特别是具有不同量纲时较为合理的做法是用相关矩阵代替协方差矩阵。对于经济问题所涉及的变量大部分量纲都是不统一的,采取相关矩阵代替协方差矩阵,可以看做是用标准化的数据做分析,这样会使得主成分分析更有意义。