主成分分析法案例(主成分分析法后做回归分析)
一、主成分分析详细步骤
(1)数据预处理:主成分分析法需要对原始数据进行预处理,包括数据标准化和中心化等。
(2)数据协方差矩阵求解:计算原始数据的协方差矩阵,用来衡量变量之间的关系。
(3)计算特征值和特征向量:计算协方差矩阵的特征值和特征向量,其中特征值越大,表示变量之间的关系越大。
(4)确定主成分:根据计算出的特征值和特征向量,选取其中的前k个特征向量作为主成分,数量取决于协方差矩阵中变量之间的关系和对目标变量的影响等因素。
(5)求解数据分析:重新构建变量间的关系,得到通过主成分分析后的数据,将原始数据投影到主成分,完成数据分析。
二、主成分分析法步骤
①根据研究问题选取初始变量
②判断是否合适进行主成分分析(KMO和Bartlett检验)
前提条件:原始变量间存在相关性是进行主成分分析的首要条件,否则原始变量无法进行降维处理。为了检验变量之间是否存在相关性,Bartlett在1950年提出了著名的Bartlett球形检验方法,用于检验变量相关系数矩阵是否为单位矩阵。
例子
(1)KMO(Kaiser-Meyer-Olkin)检验
是用于比较变量间简单相关系数和偏相关系数的指标。
KMO统计量是取值在0和1之间。1.KMO值越接近于1,意味着变量间的相关性越强,原有变量越适合作主成分分析;KMO值越接近于0,意味着变量间的相关性越弱,原有变量越不适合作主成分分析。
Kaiser给出了常用的kmo度量标准:0.9以上表示非常适合;0.8表示适合;0.7表示一般;0.6表示不太适合;0.5以下表示极不适合。
(2)Bartlett球度检验:
Bartlett球形检验的假设是:
H0:相关系数矩阵是单位矩阵(变量不相关)
H1:相关系数矩阵不是单位矩阵(变量相关)
巴特利特球度检验的统计量是根据相关系数矩阵的行列式得到的,如果显著性水平小于给定的α,那么应该拒绝零假设,即原始变量之间存在相关性,适合于做主成份分析;相反,不宜于做主成分分析。
③对初始变量进行标准化和同趋势化,消除量纲影响
标准化的方法:max-min/z-score/
同趋势化:指标正向化
④根据处理后的数据矩阵求出相关系数矩阵
⑤求出协方差矩阵的特征根和特征向量
在统计学中,方差是用来度量单个随机变量的离散程度,而协方差则一般用来刻画两个随机变量的相似程度。协方差矩阵是对各变量离散程度和变量之间的相关程度的信息的反映。
⑥确定主成分表达式,并确定主成分个数,选取主成分
⑦结合主成分对研究问题进行分析
三、主成分分析法指标要统一吗
主成分分析法需要将所有基础指标统一为正向指标并做标准化处理。
主成分分析法是一种常用的降维方法,在损失很少信息的前提下,把一系列可能存在相关性的变量,转换为一组线性不相关的变量。