定义

利用降维思想,考察多个变量间的相关性,研究如何从原始变量中导出少数几个综合指标(主成分),使它们尽可能多地保留原始变量的信息,且彼此间互不相关。

一个主成分不足以代表原来的p个变量,因此需要寻找第二乃至第三、第四主成分,各个主成分之间相互独立(统计上的描述就是让这几个主成分之间的协方差为零,几何上就是这几个主成分的方向两两正交)具体确定各个主成分的方法如下:设Zi表示第i个主成分,i=1,2,…,p,可设:

打开网易新闻 查看精彩图片

其中对每一个i,均有

公众号后台回复“spss”

领取最新安装包

主成分分析步骤

  1. 将原始数据标准化,以消除量纲的影响(这一步可借助spss进行计算)

假设进行主成分分析的指标变量有m个:x1,x2,…,xm,其中有n个评价对象,第i个评价对象的第j个指标的取值为xij,将各指标值转化成标准化指标xij,

打开网易新闻 查看精彩图片

其中

对应的,称

为标准化指标变量。即xj,sj为第j个指标的样本均值和样本标准差。

(2)建立变量之间的相关系数矩阵R

相关系数矩阵

打开网易新闻 查看精彩图片

,式中rii=1,rij=rji,rij是第i个指标与第j个指标的相关系数。

(3)计算相关系数矩阵R的特征值和特征向量

计算相关系数矩阵R的特征值λ1≥λ2≥…≥λm≥0,及对应的特征向量u1,u2 ,…,um,其中uj=(u1j,u2j,…,unj)^T,由特征向量组成m个新的指标变量。

打开网易新闻 查看精彩图片

其中y1是第一主成分,y2是第二主成分…,ym是第m主成分。

  1. 写出主成分并计算综合得分

计算特征值λj=(j=1,2,…,m)的信息贡献率和累计贡献率。称

打开网易新闻 查看精彩图片

为主成分yj的信息贡献率。

为主成分y1,y2,…,yp的累计贡献率,当ap接近于1(ar=0.85,0.90,0.95)时,则选择前p个指标变量y1,y2,…, yp,作为p个主成分,代替原来的m个指标变量,从而可对p个主成分进行综合分析。

,其中bj为第j个主成分的信息贡献率。

  1. 模型实战

打开网易新闻 查看精彩图片

上图中为实战的例题数据,下面为各变量的具体含义:

X1~人均生产总值(元);X2~全社会从业人员年末数(万人);

X3~社会消费品零售总额(亿元);X4~固定资产投资(亿元);

X5~出口总额(亿美元);X6~财政总收入(亿元);

X7~地方财政收入;X8~城乡居民储蓄存款年末余额(亿元);

X9~城镇居民人均可支配收入(元); X10~农村居民人均纯收入(元)。

对浙江省11座城市的国民经济发展水平进行主成分分析,并计算11个城市民经济主要指标主成分综合得分。

  1. 将原始数据标准化,以消除量纲的影响

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  1. 建立变量之间的相关系数矩阵R

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

主成分分析适用于变量之间存在较强相关性的数据,如果原始数据相关性较弱,应用主成分分析后不能起到很好的降维作用,所得的各个主成分浓缩原始变量信息的能力相差不大。

一般认为,当原始数据大部分变量的相关系数都小于0.3时,应用主成分分析取得的效果不理想。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

检验各因素之间有没有关联程度。一般情况下,KMO值应≥0.6,显著性值≤0.05,表明各因素之间有较强的关联程度。在本例题中,KMO的值为0.663,显著性值为0.000,说明各因素之间有较强的关联程度,可以进行降维。

  1. 计算相关系数矩阵R的特征值和特征向量

打开网易新闻 查看精彩图片

上图中被红框框住的两个值即为相关矩阵的特征值,

以x10为例,依据成分矩阵中x10的值,通过0.605÷2.791=0.217,0.763÷1.186=0.643计算得到不同变量在不同主成分中的值。同理,计算得到其他变量的两个值,则:

之后将标准化后的原始数据代入主成分表达式计算各个样本的主成分得分。

(4)写出主成分并计算综合得分

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

然后根据不同成分所占的百分比,得到最终每个样本的值:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  1. 总结

  • 结果受量纲的影响,各变量的单位可能不一样,如果各自改变量纲,结果会不一样,实际中可以先把各变量的数据标准化,然后使用协方差矩阵或相关系数矩阵进行分析。

  • 主成分的保留。用相关系数矩阵求主成分时,SPSS默认将特征值小于1的主成分予以放弃。

  • 在实际研究中,由于主成分的目的是为了降维,减少变量的个数,故一般选取少量的主成分(不超过5或6个),只要它们能解释变量的70% ~80% (称累积贡献率)即可。

BONUS TIME

数学建模资料、视频讲解、历年赛题

后台回复 【校苑】领取

打开网易新闻 查看精彩图片

100G MATLAB资料

后台回复 【干货】领取

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片