
1. 问题描述 2
2. 因子分析 2
2.1 数据基本分析 2
2.2 因子旋转 3
2.3 因子得分 4
3. 主成分分析 5
3.1 相关系数分析 5
3.2 主成分分析 5
1.问题描述
对美国洛杉矶12个人口调查区的5个经济学变量的数据进行主成分分析与因子分析,数据如下:
表1
| 编号 | 总人口 | 中等学校均龄 | 总雇员数 | 专业服务项目数 | 中等房价 |
| 1 | 5700 | 12.8 | 2500 | 270 | 25000 |
| 2 | 1000 | 10.9 | 600 | 10 | 10000 |
| 3 | 3400 | 8.8 | 1000 | 10 | 9000 |
| 4 | 3800 | 13.6 | 1700 | 140 | 25000 |
| 5 | 4000 | 12.8 | 1600 | 140 | 25000 |
| 6 | 8200 | 8.3 | 2600 | 60 | 12000 |
| 7 | 1200 | 11.4 | 400 | 10 | 16000 |
| 8 | 9100 | 11.5 | 3300 | 60 | 14000 |
| 9 | 9900 | 12.5 | 3400 | 180 | 18000 |
| 10 | 9600 | 13.7 | 3600 | 390 | 25000 |
| 11 | 9600 | 9.6 | 3300 | 80 | 12000 |
| 12 | 9400 | 11.4 | 4000 | 100 | 13000 |
2.1 数据基本分析
KMO和球形Barlett的检验用于因子分析的适用性检验。KMO检验变量间的偏相关是否较小,球形Barlett检验是判断相关阵是否是单位阵,由SPSS因子分析输出如下表:
表2
| KMO 和 Bartlett 的检验 | ||
| 取样足够度的 Kaiser-Meyer-Olkin 度量 | .575 | |
| Bartlett 的球形度检验 | 近似卡方 | 54.252 |
| df | 10 | |
| Sig. | .000 | |
由Bartlett 检验可以看出,应拒绝各变量的假设,即变量间具有较强的相关性。但是KMO 统计量为0.575<0.7,说明各变量问信息的重叠程度可能不是特别的高,有可能做出的因子分析模型不是很完善,但还是值得尝试的。
公因子方差是 表示各变量中所含原始信息能被提取的公因子所表示的程度,由下表中所示的变量共同度可知:几乎所有变量共同度都在80% 以上,因此提取出的这几个公因子对各变量的解释能力是较强的。
表3
| 公因子方差 | ||
| 初始 | 提取 | |
| 总人口 | 1.000 | .988 |
| 中等学校平均校龄 | 1.000 | .885 |
| 总雇员数 | 1.000 | .979 |
| 专业服务项目数 | 1.000 | .880 |
| 中等房价 | 1.000 | .938 |
| 提取方法:主成份分析。 | ||
碎石图用于显示各因子的重要程度,其横轴为因子序号,纵轴表示特征根大小。它将因子按特征根从大到小依次排列,从中可以非常直观的了解到哪些是最主要的因子。前面陡峭的对应较大的特征根,作用明显;后面的平台对应较小的特征根,其影响不明显。本例中可见前两个个因子的散点位于陡坡上,而后三个因子散点形成了平台,且特征根均小于1,因此至多考虑前两个公因子即可。
2.2 因子旋转
由SPSS因子分析并采用最大方差旋转法输出方差累计贡献率表如下:
| 表4: 解释的总方差 | |||||||||
| 成份 | 初始特征值 | 提取平方和载入 | 旋转平方和载入 | ||||||
| 合计 | 方差的 % | 累积 % | 合计 | 方差的 % | 累积 % | 合计 | 方差的 % | 累积 % | |
| 1 | 2.873 | 57.466 | 57.466 | 2.873 | 57.466 | 57.466 | 2.522 | 50.437 | 50.437 |
| 2 | 1.797 | 35.933 | 93.399 | 1.797 | 35.933 | 93.399 | 2.148 | 42.963 | 93.399 |
| 3 | .215 | 4.297 | 97.696 | ||||||
| 4 | .100 | 1.999 | 99.695 | ||||||
| 5 | .015 | .305 | 100.000 | ||||||
| 提取方法:主成份分析。 | |||||||||
同时输出旋转后的因子载荷矩阵如下表:
| 表5:旋转成份矩阵a | ||
| 成份 | ||
| 1 | 2 | |
| 总人口 | .016 | .994 |
| 中等学校平均校龄 | .941 | -.009 |
| 总雇员数 | .137 | .980 |
| 专业服务项目数 | .825 | .447 |
| 中等房价 | .968 | -.006 |
| 提取方法 :主成份。 旋转法 :具有 Kaiser 标准化的正交旋转法。 | ||
| a. 旋转在 3 次迭代后收敛。 | ||
+
+
+
+
+
第一主因子对中等学校平均校龄,专业服务项目,中等房价有绝对值较大的载荷(代表一般社会福利-福利条件因子); 而第二主因子对总人口和总雇员数有较大的载荷(代表人口-人口因子).
2.3 因子得分
若要使用这些因子做其他研究,如自变量回归分析、聚类、判别、评价等,就要对公因子进行测度,即求出公因子的值。因此有SPSS因子分析输出因子得分矩阵如下:
| 表6: 成份得分系数矩阵 | ||
| 成份 | ||
| 1 | 2 | |
| 总人口 | -.091 | .484 |
| 中等学校平均校龄 | .392 | -.096 |
| 总雇员数 | -.039 | .465 |
| 专业服务项目数 | .299 | .138 |
| 中等房价 | .403 | -.098 |
由上表可以直接写出各公因子的表达式:
3.主成分分析
3.1 相关系数分析
由因子分析可以输出5个变量间的相关系数矩阵如下,可见总人口与总雇员数、中等房价与中等学校平均校龄等变量间相关性较强,存在信息上的重叠。
| 表7: 相关矩阵 | ||||||
| 总人口 | 中等学校平均校龄 | 总雇员数 | 专业服务项目数 | 中等房价 | ||
| 相关 | 总人口 | 1.000 | .010 | .972 | .439 | .022 |
| 中等学校平均校龄 | .010 | 1.000 | .154 | .691 | .863 | |
| 总雇员数 | .972 | .154 | 1.000 | .515 | .122 | |
| 专业服务项目数 | .439 | .691 | .515 | 1.000 | .778 | |
| 中等房价 | .022 | .863 | .122 | .778 | 1.000 | |
由因子分析可知,选取两个主成分就可以描述原变量的绝大部分信息,同时可以输出未旋转前的主成分系数矩阵如下表,说明了各主成分在个变量上的载荷,再分别除以相应主成分的特征值的平方根,从而得出各主成分的表达式,注意在表达式中各变量己经不是原始变量,而是标准化变量。
| 成份矩阵a | 成分特征值 | |||
| 成份 | 成份 | |||
| 1 | 2 | 1 | 2 | |
| 总人口 | .581 | .806 | 2.873 | 1.797 |
| 中等学校平均校龄 | .767 | -.545 | ||
| 总雇员数 | .672 | .726 | ||
| 专业服务项目数 | .932 | -.104 | ||
| 中等房价 | .791 | -.558 | ||
=
=
其中, =1.797
