主成分分析(principal component analysis)——应用降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。
主成分分析的目的是将多个变量化为少数几个相互独立的主成分。设有n 组样品,每组样品有p 个变量(如表10-1所示)。降维思想是利用p 个变量来重新构造q 个相互独立的综合变量(q ≤p ),用较少的变量既尽可能地反映原来p 个变量的统计特性。
以下具体来求解主成分。假定x =(x 1 ,x 2 ,x 3 ,…,x p )′为均值E (x )=μ 、协方差矩阵D (x )=V 的一组随机变量。考虑x 1 ,x 2 ,x 3 ,…,x p 的一个线性组合作为一个主成分:
其中,a ′=(a 1 ,a 2 ,…,a p )。为了让主成分尽可能多地保留原始变量的信息,选择在限制a ′a =1的条件下,寻找系数a ′=(a 1 ,a 2 ,…,a p )使得Z 的方差取最大值,即求Var(a′x )的最大值。根据限制性条件下的拉格朗日极值理论可以证明,在此情况下的Var(a′x )的最大值等价于求
,就等于矩阵V 的最大特征根λ 1 ,a 就是λ 1 对应的特征向量。记矩阵V 的p 个特征值λ 1 ≥λ 2 ≥…≥λ m >λ m+1 =…=λ p =0,且m 个非零特征值所对应的特征向量分别为a 1 ,a 2 ,…,a m ,则
那么把矩阵V 的非0特征根λ 1 ≥λ 2 ≥…≥λ m >0所对应的单位特征向量a 1 ,a 2 ,…,a m 分别作为x =(x 1 ,x 2 ,x 3 ,…,x p )的系数向量,
分别称为随机向量x 的第1主成分、第2主成分,……,第m 主成分。且当i ≠j 时
,即主成分之间是不相关的。在实际分析中,主要由观察数据阵X 得到协方差V 的估计 ,从 出发计算它的特征值和特征向量,从而得到主成分。
被定义为第k 个主成分的贡献率,它反映了第k 个主成分提取的全部信息量。
为前k 个主成分的累积贡献率,它反映了前k 个主成分共同提取的全部信息量。在实际分析中,如果前m 个主成分的累积贡献率大于或等于85%,则取m 个主成分已经能够反映全部p 个变量的绝大部分信息了。第k 个主成分与p 个变量x 1 ,x 2 ,x 3 ,…,x p 的系数矩阵称为因子载荷矩阵。
注意在实际分析中,变量的单位往往不一致,因此常将数据进行标准化处理,即使得第i 个变量的均值为0,方差为1。设
,令
称
为标准化后的数据。 |