主成分分析例题详解 主成分分析删除不必要变量
一、主成分分析的因变量
主成分分析(PCA)是一种统计过程,它使用正交变换将一组可能相关变量(实体,每个实体具有不同的数值)的观察值转换为一组称为主成分的线性不相关变量的值。如果有带p个变量的n个观测值,那么不同主成分的数量为min(n-1,p)。这种变换以使得第一主成分具有最大可能的方差定义(即,尽可能多地占数据中的可变性),并且在与前面的分量正交的约束下,每个后续分量又具有最大可能的方差。结果向量(每个向量是变量的线性组合,包含n观察)是不相关的正交基集。主成分分析对原始变量的相对比例很敏感。
二、主成分析原理及优缺点
主成分分析法的缺点:
1、在主成分分析中,我们首先应保证所提取的前几个主成分的累计贡献率达到一个较高的水平(即变量降维后的信息量须保持在一个较高水平上),其次对这些被提取的主成分必须都能够给出符合实际背景和意义的解释(否则主成分将空有信息量而无实际含义)。
2、主成分的解释其含义一般多少带有点模糊性,不像原始变量的含义那么清楚、确切,这是变量降维过程中不得不付出的代价。
因此,提取的主成分个数m通常应明显小于原始变量个数p(除非p本身较小),否则维数降低的“利”可能抵不过主成分含义不如原始变量清楚的“弊”。
三、为什么要用主成分回归分析法
主成分回归分析(principlecomponentregression;PCR),以主成分为自变量进行的回归分析。是分析多元共线性问题的一种方法。用主成分得到的回归关系不像用原自变量建立的回归关系那样容易解释。
用主成分分析法对回归模型中的多重共线性进行消除后,将主成分变量作为自变量进行回归分析,然后根据得分系数矩阵将原变量代回得到的新的模型。