主成分分析

CCouQPvx · 发表于 2018-9-12 13:41:49

主成分分析（principal component analysis）——应用降维技术把多个变量化为少数几个主成分（即综合变量）的统计分析方法。

主成分分析的目的是将多个变量化为少数几个相互独立的主成分。设有n 组样品，每组样品有p 个变量（如表10-1所示）。降维思想是利用p 个变量来重新构造q 个相互独立的综合变量（q ≤p ），用较少的变量既尽可能地反映原来p 个变量的统计特性。
p 个变量的n 组样品数据.png

以下具体来求解主成分。假定x =（x 1 ，x 2 ，x 3 ，…，x p ）′为均值E （x ）=μ 、协方差矩阵D （x ）=V 的一组随机变量。考虑x 1 ，x 2 ，x 3 ，…，x p 的一个线性组合作为一个主成分：

其中，a ′=（a 1 ，a 2 ，…，a p ）。为了让主成分尽可能多地保留原始变量的信息，选择在限制a ′a =1的条件下，寻找系数a ′=（a 1 ，a 2 ，…，a p ）使得Z 的方差取最大值，即求Var（a′x ）的最大值。根据限制性条件下的拉格朗日极值理论可以证明，在此情况下的Var（a′x ）的最大值等价于求，就等于矩阵V 的最大特征根λ 1 ，a 就是λ 1 对应的特征向量。记矩阵V 的p 个特征值λ 1 ≥λ 2 ≥…≥λ m >λ m+1 =…=λ p =0，且m 个非零特征值所对应的特征向量分别为a 1 ，a 2 ，…，a m ，则

那么把矩阵V 的非0特征根λ 1 ≥λ 2 ≥…≥λ m >0所对应的单位特征向量a 1 ，a 2 ，…，a m 分别作为x =（x 1 ，x 2 ，x 3 ，…，x p ）的系数向量，分别称为随机向量x 的第1主成分、第2主成分，……，第m 主成分。且当i ≠j 时，即主成分之间是不相关的。在实际分析中，主要由观察数据阵X 得到协方差V 的估计，从出发计算它的特征值和特征向量，从而得到主成分。

被定义为第k 个主成分的贡献率，它反映了第k 个主成分提取的全部信息量。为前k 个主成分的累积贡献率，它反映了前k 个主成分共同提取的全部信息量。在实际分析中，如果前m 个主成分的累积贡献率大于或等于85％，则取m 个主成分已经能够反映全部p 个变量的绝大部分信息了。第k 个主成分与p 个变量x 1 ，x 2 ，x 3 ，…，x p 的系数矩阵称为因子载荷矩阵。

注意在实际分析中，变量的单位往往不一致，因此常将数据进行标准化处理，即使得第i 个变量的均值为0，方差为1。设，令

称为标准化后的数据。

		自动登录	找回密码
密码			立即注册

主成分分析

站长推荐 /1