设为首页收藏本站

EPS数据狗论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

查看: 2130|回复: 0

主成分分析

[复制链接]

6

主题

138

金钱

224

积分

入门用户

发表于 2018-9-12 13:41:49 | 显示全部楼层 |阅读模式

主成分分析(principal component analysis)——应用降维技术把多个变量化为少数几个主成分(即综合变量)的统计分析方法。


主成分分析的目的是将多个变量化为少数几个相互独立的主成分。设有n 组样品,每组样品有p 个变量(如表10-1所示)。降维思想是利用p 个变量来重新构造q 个相互独立的综合变量(q ≤p ),用较少的变量既尽可能地反映原来p 个变量的统计特性。
p 个变量的n 组样品数据.png

以下具体来求解主成分。假定x =(x 1 ,x 2 ,x 3 ,…,x p )′为均值E (x )=μ 、协方差矩阵D (x )=V 的一组随机变量。考虑x 1 ,x 2 ,x 3 ,…,x p 的一个线性组合作为一个主成分: Z.png

其中,a ′=(a 1 ,a 2 ,…,a p )。为了让主成分尽可能多地保留原始变量的信息,选择在限制a ′a =1的条件下,寻找系数a ′=(a 1 ,a 2 ,…,a p )使得Z 的方差取最大值,即求Var(a′x )的最大值。根据限制性条件下的拉格朗日极值理论可以证明,在此情况下的Var(a′x )的最大值等价于求 4.png ,就等于矩阵V 的最大特征根λ 1 ,a 就是λ 1 对应的特征向量。记矩阵V 的p 个特征值λ 1 ≥λ 2 ≥…≥λ m >λ m+1 =…=λ p =0,且m 个非零特征值所对应的特征向量分别为a 1 ,a 2 ,…,a m ,则
MAX.png


那么把矩阵V 的非0特征根λ 1 ≥λ 2 ≥…≥λ m >0所对应的单位特征向量a 1 ,a 2 ,…,a m 分别作为x =(x 1 ,x 2 ,x 3 ,…,x p )的系数向量, am.png 分别称为随机向量x 的第1主成分、第2主成分,……,第m 主成分。且当i ≠j 时 cov.png ,即主成分之间是不相关的。在实际分析中,主要由观察数据阵X 得到协方差V 的估计 ,从 出发计算它的特征值和特征向量,从而得到主成分。


pk.png 被定义为第k 个主成分的贡献率,它反映了第k 个主成分提取的全部信息量。 1.png 为前k 个主成分的累积贡献率,它反映了前k 个主成分共同提取的全部信息量。在实际分析中,如果前m 个主成分的累积贡献率大于或等于85%,则取m 个主成分已经能够反映全部p 个变量的绝大部分信息了。第k 个主成分与p 个变量x 1 ,x 2 ,x 3 ,…,x p 的系数矩阵称为因子载荷矩阵。


注意在实际分析中,变量的单位往往不一致,因此常将数据进行标准化处理,即使得第i 个变量的均值为0,方差为1。设 3.png ,令
x.png


2.png 为标准化后的数据。

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

客服中心
关闭
在线时间:
周一~周五
8:30-17:30
QQ群:
653541906
联系电话:
010-85786021-8017
在线咨询
客服中心

意见反馈|网站地图|手机版|小黑屋|EPS数据狗论坛 ( 京ICP备09019565号-3 )   

Powered by BFIT! X3.4

© 2008-2028 BFIT Inc.

快速回复 返回顶部 返回列表