实验报告
日期:2012.4.24
实验项目 | 用主成分分析和聚类分析对某一行政区域的 经济综合状况进行评价 | 成绩 | |
实验目的 | 1、巩固地理聚类分析和主成分分析的基本原理和方法步骤; 2、用SPSS软件完成地理的聚类分析和主成分分析。 | ||
主要仪器及软件 | 硬件:计算机 软件:Excel、SPSS | ||
实 验 内 容 与 原 理 | 1、挑选影响某一区域的经济状况的指标; 2、用主成分分析剖析出影响区域经济状况的主要指标,并对该区域的经济综合实力进行排序; 3、用主成分剖析出的指标,用聚类分析对区域的经济状况进行评价,并对每类的经济综合状况进行评价; 4、探讨聚类分析和主成分分析两种方法如何结合使用来分析问题。 5、硬件:计算机;软件:SPSS18.0; 数据:根据中国统计年鉴数据库,查找中国2010年各地区生产总值数据,归纳出各地区各种产业与当地生产总值的关系; 6、主成分分析:是把原来多个变量划为少数几个综合指标的一种统计分析方法,从数学角度来看,这是一种降维处理技术。主成分分析方法就是综合处理这种问题的一种强有力的工具。 7、聚类分析:是研究多要素事物分类问题的数量方法。其基本原理是,根据样本自身的属性,用数学方法按照某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。 | ||
实 验 步 骤 与 结 果 分 析 | 1、主成分分析 (1)运行“spss 18.0”软件,在菜单栏点击文件命令,下拉菜单中打开已有数据文件,选择分析(Analyze)—降维(Data Reduction)—因子分析。在变量Variable(s)中加入主成分的变量。 (2)①单击Descriptives(描述)进入对话框,在Initial Solution(原始分析结果),Coefficients(系数矩阵),KMO and Bartletts test of Sphericity(KMO和Bartletts球形度检验)前面打钩,点击继续。 ②单击Extraction(抽取)选项,进入对话框。选择Method: principal component(主成分分析),点击Correlation Matrix(相关矩阵)与Unrotated factor solution(因子未旋转时的解)并在Eigenvalues over(特征值超过) 里填0.5,在Maximum iterations for convergence(收敛的最大迭代数)里填25,点击继续。 ③单击Rotation(旋转)选项,进入对话框,在Method中选Equamax(平均正交),在Rotated Solution(旋转结果)中打勾,在Maximum iterations for converence(收敛的最大迭代数)里填25,点击继续。 ④单击Scores选项(得分),进入对话框,在Save as variables(另存为新变量)打勾,在Method中点击Regression(回归分析)点击继续。 ⑤单击Options选项,跳出对话框,在Missing Values(缺失值)中选选Exclude cases listwise(排除因变量或自变量有缺失值的观测量),在coefficient Display Format(系数显示格式)中,改Suppress absolute values less than (不显示那些绝对值小于某一指定值的载荷系数,只列出大于某一值的因子数)为0.20,点击继续。
(3)返回因子分析窗口点击确定,查看结果报告。 变量间的相关系数矩阵: 公因子方差表: 解释总方差表: 成分矩阵: 旋转成分矩阵与成分转换矩阵:
2、聚类分析 (1)单击分析(Analyze)—分类(Classify)—系统聚类(Hierarchical cluster),在打开的系统聚类分析窗口中变量Variable(s)框加入聚类的变量,在标注个案lable cases by中加入地区名称,在Cluster(聚类)中选case(观测量),在Display中选Statistics(统计量)与Plots(绘图)。 (2)①点击统计量Statistics,进入对话框选Agglomeration Schedule(聚类进程表,显示聚类过程的每一步),点击继续。 ②点击绘制(Plots),选Dendrogram.(树状图),在Icicle(冰柱图)中选All clusters(所有聚类,显示聚类过程的冰柱图),在Orientation(方向)中选Horizontal(垂直),点击继续。 ③点击Method方法,选Cluster:Between Groups linkage(组间联结),在Measure度量标准的区间中,选Squared Euclidean Distance(欧式距离平方),点击继续。 ④点击保存Save,并选择Single solution Number of clusters设定值为5,显示将样本分成5类。
(3)返回系统聚类分析窗口点击确定,查看结果报告。 聚类表与冰柱直方图: 聚类树状图水平与竖直: 结果分析与总结: 在主成分分析中可以根据KMO和Bartlett球形度检验结果,依据统计学家Kaiser给出的标准,KMO取值小于0.7不太适合因子分析。Bartlett球度检验小于显著性水平0.05拒绝Bartlett球度检验的零假设,认为适合于因子分析。进而对主成分分析中各因子分析做出判定。在公因子方差中该表格第一列列出了10个原始变量名;第二列是根据因子分析初始解计算出的变量共同度。利用主成分分析方法得到10个特征值,它们是因子分析的初始解,可利用这10个初始解和对应的特征向量计算出因子载荷矩阵。由于每个原始变量的所有方差都能被因子变量解释掉,因此每个原始变量的共同度都为1;第三列是根据因子分析最终解计算出的变量提取共同度。根据最终提取的m个特征值和对应的特征向量计算出因子载荷矩阵,这时由于因子变量个数少于原始变量的个数,因此每个变量的共同度必然小于1。如:第一行变量地区生产总值对应的变量提取共同度0.997表示m个因子变量共解释掉原变量地区生产总值方差的87.7%。从第三列数值的对比结果可以看出“地区生产总值”变量在因子分析后,能被m个因子变量解释的方差最多,达到99.7%。“交通运输、仓储和邮政业”变量在因子分析后,能被m个因子变量解释的方差最少,值为87.2%。 解释的总方差表表示的是因子分析后因子提取和因子旋转的结果。其中成分(Component)和初始特征值(Initial Eigenvalues)数据(第一列到第四列)描述了因子分析初始解对原有变量总体描述情况。第一列是因子分析十个初始解序号。第二列是因子变量的方差贡献(特征值),它是衡量因子重要程度的指标。如:第一个特征值为8.53,表示第一个因子描述了原有变量总方差10中的8.53,排在后面的因子描述的初值特征值依次减少。第三列是各因子变量的方差贡献率,表示该因子描述的方差占原有变量的总方差的比例。它的值是第二列的特征值除以总方差10的结果,所以第二列与第三列数据有着相同的关联度与评价力。第四列是因子变量的累计方差贡献率,表示前m个因子描述的总方差占原有变量的总方差的比例。第五列到第七列则是从初始解中按照一定的标准提取了2个公共因子后对原变量总体的描述情况。各列数据的含义和第二列到第四列相同。由提取的2个公共因子数据分析可以发现在提取的2个公共因子反应了原变量的大部分信息。第八列到第十列是旋转以后得到的因子对原变量的总体刻画情况。各列的含义和第五列到第七列是一样的。 成分矩阵是最终的因子载荷矩阵,在主成分分析操作步骤中选择只把载荷大于0.2的数值显示出来,这样就突出了数值较大的载荷。旋转成分矩阵是按照设定的方差极大法对因子载荷矩阵旋转后的结果,未经过旋转的载荷矩阵中,因子变量在许多变量上都呈现较高的载荷,经过旋转后因子变量发生改变,第一主成分与变量因子的相关性中,除了“第一产业”变量,与其它变量都表现出了相应的正相关,特别是与“金融业”表现出高度正相关,而与“建筑业”变量呈现出的相关性相对不那么强。第二主成分,却与“第一产业”变量则呈现出了较强的正相关,与“金融业”不显示相关性,与“房地产业、其他服务业、批发和零售业”的正相关性相对较弱。成份转换矩阵表输出的是因子转换矩阵,标明了因子提取的方法是主成分分析方法,旋转的方法是具有Kaiser标准化的全体旋转法。 聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,它是通过一个类有效索引来评价,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量,类有效索引在决定类的数目时经常扮演了一个重要角色,类有效索引的最佳值被期望从真实的类数目中获取,一个通常的决定类数目的方法是选择一个特定的类有效索引的最佳值,这个索引能否真实的得出类的数目是判断该索引是否有效的标准,很多已经存在的标准对于相互分离的类数据集合都能得出很好的结果,但是对于复杂的数据集,却通常行不通,例如,对于交叠类的集合。在这里通过公因子主成分进行的聚类分析。平均联结聚类表显示第一列“阶”数据表示聚类分析的步骤,可以看出本实验数据共进行了30个步骤的分析;第二列和第三列表示某步聚类分析中,哪两个样本或地区被聚成了一类;第四列表示两个样本或类间的距离,从表格中可以看出,距离小的样本之间先聚类;第五列和第六列表示某步聚类分析中,参与聚类的是样本还是类,0则表示样本,数字n(非零)表示第n步聚类产生的类参与了本步的聚类;第七列表示本步聚类结果在下面步聚类的第几步中用到。例如本表格的第一行数据分析表示:第29个样本和第30个样本最先进行了聚类,样本间的距离为0.003,这个聚类结果将在后面的第2步聚类中用到,其他2到30行的数据含义同理可证。 在本例中,聚类分析过程经过了30步聚类,31个样本聚成了一个大类。 聚类树状图是层次聚类分析的树形图,通过图可以一目了然且简单的认识到聚类发生的过程。从图中可以看出,各个类之间的距离在25的坐标内,且聚类对象之间的距离差距较小,因此直接从聚类树状图中按坐标方向便可以判断出哪几个样本先聚类。 |