点击下载
本文文档

当前位置：首页 - 正文

SPSS进行主成分分析

来源：动视网责编：小OO 时间：2025-09-30 01:30:41

SPSS进行主成分分析

实验七、利用SPSS进行主成分分析【例子】以全国3１个省市的经济指标为例，进行主成分分析。第一步：录入或调入数据(图1）。图1原始数据（未经标准化）第二步：打开“因子分析”对话框。沿着主菜单的“Analｙze→ＤataRｅｄuctｉｏn→Factor”的路径(图2)打开因子分析选项框（图3）。图2打开因子分析对话框的路径图3因子分析选项框第三步：选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号，将需要的变量调入变量(Ｖariaｂleｓ)栏中(图３)。在本例中，全部8个

推荐度：

点击下载本文 文档为doc格式

导读实验七、利用SPSS进行主成分分析【例子】以全国3１个省市的经济指标为例，进行主成分分析。第一步：录入或调入数据(图1）。图1原始数据（未经标准化）第二步：打开“因子分析”对话框。沿着主菜单的“Analｙze→ＤataRｅｄuctｉｏn→Factor”的路径(图2)打开因子分析选项框（图3）。图2打开因子分析对话框的路径图3因子分析选项框第三步：选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号，将需要的变量调入变量(Ｖariaｂleｓ)栏中(图３)。在本例中，全部8个

实验七、利用SPSS进行主成分分析

【例子】以全国3１个省市的经济指标为例，进行主成分分析。

第一步：录入或调入数据(图1）。

图1 原始数据（未经标准化）

第二步：打开“因子分析”对话框。

沿着主菜单的“Analｙze→Ｄata Rｅｄuctｉｏn→Factor ”的路径(图2)打开因子分析选项框（图3）。

图2 打开因子分析对话框的路径图3 因子分析选项框

第三步：选项设置。

首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号，将需要的变量调入变量(Ｖariaｂleｓ)栏中(图３)。在本例中，全部8个变量都要用上，故全部调入(图４）。因无特殊需要,故不必理会“Vａlue ”栏。下面逐项设置。

图４将变量移到变量栏以后

⒈设置Deｓcriｐtives描述选项。

单击Descｒiptiｖes按钮（图４）,弹出Descｒｉpｔｉｖｅs对话框(图5）。

图5 描述选项框

在Stat ｉs ｔic ｓ统计栏中选中U ｎiva ｒiate d ｅscript ｉves 复选项,则输出结果中将会给出原始数据的抽样均值、方差和样本数目(这一栏结果可供检验参考);选中Initial ｓｏｌｕti ｏn 复选项，则会给出主成分载荷的公因子方差（这一栏数据分析时有用)。

在C ｏrrel ａtion M ａｔｒi ｘ栏中,选中Coe ｆficien ｔs 复选项，则会给出原始变量的相关系数矩阵（分析时可参考）;选中Deter ｍinant 复选项,则会给出相关系数矩阵的行列式,如果希望在E ｘc ｅｌ中对某些计算过程进行了解,可选此项，否则用途不大。其它复选项一般不用,但在特殊情况下可以用到(本例不选）。

设置完成以后,单击Ｃont ｉnue 按钮完成设置(图５)。

⒉ 设置Extra ｃtion 选项。

打开Ext ｒaction 对话框（图6）。因子提取方法主要有7种,在Method 栏中可以看到，系统默认的提取方法是主成分(Pr ｉn ｃi ｐa ｌ Compon ｅn ｔｓ），因此对此栏不作变动，就是认可了主成分分析方法。

在Ana ｌyze 栏中，选中Correlatio ｎ ma ｔrix 复选项，则因子分析基于数据的相关系数矩阵进行分析；如果选中Ｃovar ｉance matri ｘ复选项,则因子分析基于数据的协方差矩阵进行分析。对于主成分分析而言,由于数据标准化了，这两个结果没有分别，因此任选其一即可。

在D ｉsplay 栏中，选中U ｎｒotated factor s ｏlu ｔi ｏn(非旋转因子解）复选项，则在分析结果中给出未经旋转的因子提取结果。对于主成分分析而言,这一项选择与否都一样;对于旋转因子分析，选择此项,可将旋转前后的结果同时给出，以便对比。

选中Scree P ｌo ｔ(“山麓”图）,则在分析结果中给出特征根按大小分布的折线图（形如山麓截面,故得名），以便我们直观地判定因子的提取数量是否准确。

在Extract 栏中，有两种方法可以决定提取主成分（因子）的数目。一是根据特征根(Ｅig ｅnvalues ）的数值,系统默认的是1=c λ。我们知道，在主成分分析中,主成分得分的方差就是对应的特征根数值。如果默认1=c λ,则所有方差大于等于１的主成分将被保留，其余舍弃。如果觉得最后选取的主成分数量不足，可以将c λ值降低,例如取

9.0=c λ；如果认为最后的提取的主成分数量偏多,则可以提高c λ值，例如取1.1=c λ。

主成分数目是否合适,要在进行一轮分析以后才能肯定。因此,特征根数值的设定,要在反复试验以后才能决定。一般而言,在初次分析时,最好降低特征根的临界值（如取

8.0

c

可以调整特征根的大小。

第二种方法是直接指定主成分的数目即因子数目,这要选中Numｂer oｆｆacｔｏrs复选项。主成分的数目选多少合适？开始我们并不十分清楚。因此,首次不妨将数值设大一些,但不能超过变量数目。本例有8个变量,因此,最大的主成分提取数目为８,不得超过此数。在我们第一轮分析中,采用系统默认的方法提取主成分。

图６提取对话框

需要注意的是:主成分计算是利用迭代（Iteratｉons）方法，系统默认的迭代次数是２5次。但是,当数据量较大时，25次迭代是不够的,需要改为50次、100次乃至更多。对于本例而言,变量较少，25次迭代足够,故无需改动。

设置完成以后,单击Ｃonｔinue按钮完成设置（图6)。

⒊设置Scoｒes设置。

选中Saveａs ｖariaｂｌes栏,则分析结果中给出标准化的主成分得分（在数据表的后面）。至于方法复选项，对主成分分析而言，三种方法没有分别，采用系统默认的“回归”(Regreｓsｉoｎ)法即可。

图7 因子得分对话框

选中Ｄi ｓp ｌay ｆａc ｔｏｒ s ｃore coeffici ｅｎt ｍa ｔri ｘ,则在分析结果中给出因子得分系数矩阵及其相关矩阵。

设置完成以后,单击Ｃontinue 按钮完成设置(图7）。

⒋ 其它。

对于主成分分析而言,旋转项（Rota ｔio ｎ）可以不必设置;对于数据没有缺失的情况下,Optio ｎ项可以不必理会。

全部设置完成以后,点击ＯK 确定,S ＰS Ｓ很快给出计算结果(图8)。

图８主成分分析的结果

第四步,结果解读。

在因子分析结果（Ｏutp ｕt ）中,首先给出的Descri ｐtive Sta ｔisti ｃｓ,第一列Mean 对应的变量的算术平均值，计算公式为

∑==n

i ij j x n x 1

1

第二列Std ． Deviation 对应的是样本标准差，计算公式为

2/11

2])(11[∑=--=n

i j ij j x x n σ 第三列A ｎal ｙs ｉs N 对应是样本数目。这一组数据在分析过程中可作参考。

接下来是Co ｒr ｅl ａt ｉon Ma ｔr ｉx(相关系数矩阵），一般而言，相关系数高的变量，大多会进入同一个主成分，但不尽然，除了相关系数外，决定变量在主成分中分布地位的因素还有数据的结构。相关系数矩阵对主成分分析具有参考价值,毕竟主成分分析是从计算相关系数矩阵的特征根开始的。相关系数阵下面的De ｔe ｒmin ａnt ＝１.１33Ｅ－0.4是相关矩阵的行列式值，根据关系式0)det(=-R I λ可知，d ｅｔ（λI )=d ｅt （R ),从而Dete ｒmin ａnt ＝1.１3３E-0.４=λ1*λ2*λ３*λ4*λ5*λ６＊λ7*λ8。这一点在后面将会得到验证。

在Ｃommuna ｌit ｉｅs 中，给出了因子载荷阵的初始主成分方差(Ｉｎitial ）和提取主成分方差(Ex ｔr ａｃtio ｎ），后面将会看到它们的含义。

在To ｔal Ｖari ａｎce Ex ｐl ａin ｅｄ(全部解释方差) 表的Initial E ｉgenvalues(初始特征根)中，给出了按顺序排列的主成分得分的方差(Tota ｌ),在数值上等于相关系数矩阵的各个特征根λ,因此可以直接根据特征根计算每一个主成分的方差百分比(% ｏf Varia ｎce)。由于全部特征根的总和等于变量数目,即有m =∑λi ＝8，故第一个特征根的方差百分比为λ1／ｍ=3．755／8=46.９39,第二个特征根的百分比为λ２／m =２.１97/８= ２7.４5９,……，其余依此类推。然后可以算出方差累计值(Cu ｍulati ｖe ％）。在Extr ａｃｔｉｏｎ Sums o ｆ S ｑuared Loa ｄing ｓ，给出了从左边栏目中提取的三个主成分及有关参数，提取的原则是满足λ>1,这一点我们在图6所示的对话框中进行了限定。

E i g e n v a l u e

图8 特征根数值衰减折线图（山麓图)

i 只取λ>1的特征根对应的主成分

从Ｔoｔaｌ Varｉance Explａined表中可见，第一、第二和第三个主成分对应的λ值都大于１，这意味着这三个主成分得分的方差都大于1。本例正是根据这条准则提取主成分的。

ｉi累计百分比达到８０%~8５%以上的λ值对应的主成分

在Ｔotal Ｖａriａnce Exｐlａined表可以看出,前三个主成分对应的λ值累计百分比达到．584％,这暗示只要选取三个主成分,信息量就够了。

iiｉ根据特征根变化的突变点决定主成分的数量

从特征根分布的折线图（SｃrｅeＰlｏt）上可以看到,第４个λ值是一个明显的折点，这暗示选取的主成分数目应有ｐ≤４（图８)。那么，究竟是3个还是４个呢？根据前面两条准则，选３个大致合适（但小有问题)。

在Ｃomponｅnt Matrix（成分矩阵）中,给出了主成分载荷矩阵,每一列载荷值都显示了各个变量与有关主成分的相关系数。以第一列为例，0．８８５实际上是国内生产总值(ＧDP）与第一个主成分的相关系数。将标准化的GDP数据与第一主成分得分进行回归,决定系数R2=0.783（图9），容易算出Ｒ=0.８85，这正是GDP在第一个主成分上的载荷。

下面将主成分载荷矩阵拷贝到Exｃel上面作进一步的处理：计算公因子方差和方差贡献。首先求行平方和,例如,第一行的平方和为

ｈ12=０．8８492+0．３8３62+0.12092=0.9449

这是公因子方差。然后求列平方和,例如,第一列的平方和为

s12=0.8８49２+0.6０６72+…+0．82272＝3.７5５１

这便是方差贡献（图10）。在Ｅxcel中有一个计算平方和的命令sumsq，可以方便地算出

:

至于行平方和,

果我们将8个主成分全部提取，则主成分载荷的行平方和都等于1(图１1)，即有h i＝1，s j

＝λj 。到此可以明白:在C ｏｍmunal ｉties 中,Ｉｎｉtia ｌ对应的是初始公因子方差,实际上是全部主成分的公因子方差；Ｅxtract ｉon 对应的是提取的主成分的公因子方差，我们提取了3个主成分,故计算公因子方差时只考虑3个主成分。

y = 0.0012x - 2.2336

R 2 = 0.783

-4

-3-2-10123

450100020003000400050006000

第一主成分

国内生产总值

图9 国内生产总值(GDP)的与第一主成分的相关关系(标准化数据）

图１0 主成分方差与方差贡献

Component Matrix a

.885.384.121-.203-6.87E-02 1.143E-02 2.420E-029.192E-02.607-.598.271.409-7.61E-02.157 5.525E-02 1.317E-02.912.161.212-.270-7.71E-028.271E-02

8.113E-02-7.36E-02.466-.722.368-.1.304-1.E-02-7.62E-02 3.949E-03.486.738-.275.212.305 2.254E-02 6.855E-02

-6.02E-03-.509.252.797.072 2.716E-02-.161.107 2.435E-03-.620.594.438-.027 3.531E-02.247-9.23E-02

1.634E-03.823

.427

.211

.209

-9.38E-02-.137

-.157

-2.30E-02

国内生产居民消费固定资产职工工资货物周转消费价格商品零售工业产值

1234567

8Component Extraction Method: Principal Component Analysis.8 components extracted.

a.

图１1 全部主成分的公因子方差和方差贡献

提取主成分的原则上要求公因子方差的各个数值尽可能接近，亦即要求它们的方差极小，当公因子方差完全相等时,它们的方差为0，这就达到完美状态。实际应用中，只要公因子方差数值彼此接近（不相差太远)就行了。从上面给出的结果可以看出:提取３个主成分的时候，居民消费的公因子方差偏小，这暗示提取3个主成分,居民消费方面的信息可能有较多的损失。至于方差贡献,反映对应主成分的重要程度，这一点从方差的统计学意义可以得到理解。

在图１1中，将最后一行的特征根全部乘到一起,得0.000１133,这正是相关系数矩阵的行列式数值(在E ｘｃe ｌ中,求一组数据的乘积之和的命令是ｐroduct ）。

最后说明Ｃompon ｅn ｔ S ｃｏr ｅ Coef ｆｉｃi ｅnt M ａtrix(成分得分系数矩阵)和Co ｍpo ｎent Ｓｃｏre Ｃo ｖa ｒi ａｎｃe Mat ｒｉｘ（成分得分协方差矩阵），前者是主成分得分系数,后者是主成分得分的协方差即相关系数。从Ｃom ｐo ｎｅnt Sc ｏre C ｏｖa ｒｉance Matrix 可以看出,标准化主成分得分之间的协方差即相关系数为０（j ≠ｋ）或１（j =ｋ），这意味着主成分之间彼此正交即垂直。

初学者常将C ｏm ｐｏnent Sc ｏre Ｃｏe ｆficien ｔ Matrix 表中的数据当成主成分得分或因子得分,这是误会。成分得分系数矩阵的数值是主成分载荷除以相应的特征根得到的结果。在C ｏmp ｏnent Ｍａtrix 表中，将第一列数据分别除以λ１＝3.7５５，第二列数值分别除以λ2=２.197,…,立即得到Ｃom ｐone ｎt S ｃore Coeff ｉcient ；反过来,如果将Ｃo ｍponent S ｃo ｒe Ｃo ｅｆficient Mat ｒｉx 表中的各列数据分别乘以λ1=3．75５，λ2=2．19７,…，则可将其还原为主成分载荷即Ｃｏmp ｏnent Ma ｔｒix 中

实际上,主成分得分在原始数据所在的ＳPSS当前数据栏中给出，不过给出的都是标准化的主成分得分(图12ａ）;将各个主成分乘以相应的√λ即特征根的二次方根可以将其还原为未经标准化的主成分得分。

a.标准化的主成分得分ｂ．非标准化的主成分得分

图12 两种主成分得分

计算标准化主成分得分的协方差或相关系数，结果与Coｍpoｎent Scoｒe Covarianｃe Ｍａtrix表中的给出的结果一致（见图13）。

第一因子第二因子第三因子

第一因子1

第二因子0．000０0 1

第三因子0．00０00 0.0000０1

图13 主成分（得分）之间的相关系数矩阵

第五步,计算结果分析。

从Cｏmpｏｎｅnt Ｍａｔｒix即主成分载荷表中可以看出，国内生产总值、固定资产投资和工业产值在第一主成分上载荷较大,亦即与第一主成分的相关系数较高；职

--

工工资和货物周转量在第二主成分上的载荷绝对值较大,即负相关程度较高；消费价格指数在第三主成分上的载荷较大，即相关程度较高。

因此可将主成分命名如下：

第一主成分:投入－产出主成分;

第二主成分:工资－物流主成分;

第三主成分：消费价格主成分。

作业:课后1５题。

--

SPSS进行主成分分析

实验七、利用SPSS进行主成分分析【例子】以全国3１个省市的经济指标为例，进行主成分分析。第一步：录入或调入数据(图1）。图1原始数据（未经标准化）第二步：打开“因子分析”对话框。沿着主菜单的“Analｙze→ＤataRｅｄuctｉｏn→Factor”的路径(图2)打开因子分析选项框（图3）。图2打开因子分析对话框的路径图3因子分析选项框第三步：选项设置。首先,在源变量框中选中需要进行分析的变量,点击右边的箭头符号，将需要的变量调入变量(Ｖariaｂleｓ)栏中(图３)。在本例中，全部8个

推荐度：

点击下载本文 文档为doc格式

热门焦点

SPSS进行主成分分析

SPSS进行主成分分析

SPSS进行主成分分析

最新推荐

猜你喜欢

热门推荐