以教材第五章习题8的数据为例,演示并说明因子分析的详细步骤。因子分析与主成分分析有许多相似之处,望同学们分清二者的区别。
一.原始数据的输入
二.选项操作:(该步骤中,黄色突出部分是与主成分分析不同之处)
1. 打开SPSS的“分析”→“降维”→“因子分析”,
打开“因子分析”对话框(如下图)
2. 把六个变量:食品、衣着、燃料、住房、交通和通讯、娱乐教育文化输入到右边的待分析变量框。
3. 设置分析的统计量
打开最右上角的“描述”对话框:选中“统计量”里面的“原始分析结果”;“相关矩阵”里面的“系数”和“KMO和Bartlett的球形度检验”。然后点击“继续”。
打开第二个的“抽取”对话框:“方法”里选取“主成分”;“分析”、“输出”和“抽取”这三项都选中各自的第一个选项即可。然后点击“继续”。
第三个的“旋转”对话框里:“方法”中选取“最大方差法”;“输出”中选取“旋转解”和“载荷图”。
第四个“得分”对话框中,选中“保存为变量”的“回归”;以及“显示因子得分系数矩阵”。
第五个“选项”对话框,默认即可。
这时点击“确定”,进行因子分析。
三.分析结果的解读
按照SPSS输出结果的先后顺序逐个介绍
1.相关系数矩阵:是6个变量两两之间相关系数大小的方阵。
2. KMO和Bartlett 球形度检验
检验数据是否适合做因子分析,通常的标准是:KMO>0.6并且Bartlett球形度检验的Sig05
才可以进行因子分析,否则需要调整数据个数或变量个数,.0
直到通过该检验为止。(结果显示:该例子通过该检验,可以进行因子分析。)
3.共同度:
给出了这次因子分析从原始变量中提取的信息,可以看出交通和通讯最多,
4.总方差的解释:
系统默认方差大于1的为主成分,所以只取前两个,前两个主成分累加占到总方差的80.939%。并且第一主成分的方差是3.568,第二主成分的方差是1.288。
5. 主成分载荷矩阵:
和主成分分析的结果完全相同。
6.旋转后的主成分载荷矩阵:
旋转后的主成分载荷矩阵,各个系数尽量向1或0靠拢,使系数两极化,这样使各个因子有了更清晰的解释。通过该矩阵可以给各因子命名,赋予实际意义。譬如:该例因子1向量中,食品、衣着、住房、交通和通讯这四个变量的系数较高,因子1可以称为基本生活需求因子;因子2向量中,燃料、娱乐文化教育两个变量的系数较高,因子2可以称为较高层次生活需求因子。
7. 载荷图:
显示了各个变量靠近各因子的程度。
8. 主成分得分系数矩阵:
这两个向量就是因子1和因子2的系数,各个系数乘以对应的各变量的标准化数据即为各因子。因子1和因子2的完整表达式分别是:
娱交住燃衣食Z Z Z Z Z Z F *053.0*303.0*279.0*172.0*285.0*188.01+++-+= 娱交住燃衣食Z Z Z Z Z Z F *410.0*116.0*077.0*688.0*098.0*260.02+--+-=
9. 因子得分
SPSS 输出的因子得分和原始数据一起显示在数据窗口里面:
四.综合得分及排序:
综合得分是按照各个因子方差的比重乘以各因子得分再求和来计算的:
21*288
.1568.3288.1*288.1568.3568.3F F F +++=, 化简得: 21*2652.0*7348.0F F F +=。
按照此公式计算出各地区的综合得分F 后,可以进行排序。(同学们自己完成)
特别提醒:
1. 因子分析需要进行数据的KMO 和Bartlett 球形度检验。
2. 因子分析绝大多数是:采取“主成分”法;需要“旋转”并且是选取“最大
方差法”。
3. 旋转后的主成分载荷矩阵,可以给各个因子命名,赋予现实意义。(同学们
自己阅读因子分析的论文,体会理解因子命名技巧。)
4. 主成分得分系数矩阵是各个因子函数关系式的系数。
5. 不旋转的因子分析和主成分分析几乎完全一样,只是最后的因子得分和主成
分得分不同,并且是相差方差的算术平方根倍。SPSS 可以直接输出因子得分,而主成分得分需要进一步计算。
6. 如果计算没有错误,因子1、因子2和综合得分F ,它们各自的数值之和都等
于0(SPSS 可以直接输出各因子得分,但是综合得分需要另外计算)。
7. 因子分析应该计算出综合得分并排序。
通过下面的两个例子让同学们理解并熟悉因子命名及其技巧,运用因子分析时应该尽量给各因子命名,使其具有实际意义。
例一:
1.原始数据:
2.旋转后的主成分载荷矩阵:
第一个因子和语文、历史、英语三科有很强的相关;
第二个因子和数学、物理、化学三科有很强的相关。
因此可以给第一个因子起名为“文科因子”,而给第二个因子起名为“理科因子”。
例二:
1.相关系数矩阵:
2.旋转后的主成分载荷:
旋转后,F1上有较大载荷的是铅球,铁饼,都与手臂爆发力有关,可以将因子F1命名为爆发性臂力强度因子。
而400米,100米在F2上有高载荷,因为这两项主要反映跑的速度的,故命之为跑的速度因子。
F3上有高载荷的是跳远,跳高,110米栏,撑杆跳高。这些项目主要反映腿部爆发力的,可以命之为腿部爆发性强度因子。
在F4上唯有1500米有较高的载荷,可以命之为跑的耐力因子。