实验课程名称 《spss统计分析基础教程》
开课实验室 管理教学示范中心实验室
学 院 管理 年级 2012 专业班 信管2班
学 生 姓 名 蔡明月 学 号 ************
开 课 时 间 2014 至 2015 学年第 一 学期
总 成 绩 | |
教师签名 |
一、试验目的
通过本试验项目,使学生理解并掌握SPSS软件包有关数据文件创建和整理的基本操作,学习如何将收集到的数据输入计算机,建成一个正确的SPSS数据文件,并掌握如何对原始数据文件进行整理,包括数据查询,数据修改、删除,数据的排序等等。
二、试验内容
某航空公司38名职员性别和工资情况的调查数据,如表2.3所示,试在SPSS中进行如下操作:
(1)将数据输入到SPSS的数据编辑窗口中,将gender定义为字符型变量,将salary定义为数值型变量,并保存数据文件,命名为“试验1-1.sav”。
(2)插入一个变量income,定义为数值型变量。
(3)将数据文件按性别分组
(4)查找工资大于40000美元的职工
(5)当工资大于40000美元时,职工的奖金是工资的20%;当工资小于40000美元时,职工的奖金是工资的10%,假设实际收入=工资+奖金,计算所有职工的实际收入,并添加到income变量中。
表2.3 某航空公司38名职员情况的调查数据表
Id | Gender | Salary | Id | Gender | Salary |
1 | M | $ 57000 | 20 | F | $ 26250 |
2 | M | $ 40200 | 21 | F | $ 38850 |
3 | F | $ 21450 | 22 | M | $ 21750 |
4 | F | $ 21900 | 23 | F | $ 24000 |
5 | M | $ 45000 | 24 | F | $ 16950 |
6 | M | $ 32100 | 25 | F | $ 21150 |
7 | M | $ 36000 | 26 | M | $ 31050 |
8 | F | $ 21900 | 27 | M | $ 60375 |
9 | F | $ 27900 | 28 | M | $ 32550 |
10 | F | $ 24000 | 29 | M | $ 135000 |
11 | F | $ 30300 | 30 | M | $ 31200 |
12 | M | $ 28350 | 31 | M | $ 36150 |
13 | M | $ 27750 | 32 | M | $ 110625 |
14 | F | $ 35100 | 33 | M | $ 42000 |
15 | M | $ 27300 | 34 | M | $ 92000 |
16 | M | $ 40800 | 35 | M | $ 81250 |
17 | M | $ 46000 | 36 | F | $ 31350 |
18 | M | $103750 | 37 | M | $ 29100 |
19 | M | $ 42300 | 38 | M | $ 31350 |
选择菜单 【文件】→【新建】→【数据】。单击左下角【变量视窗】标签进入变量视图界面,根据试验的设计定义每个变量类型。变量定义完成以后,单击【数据视窗】标签进入数据视窗界面,将每个具体的变量值录入数据库单元格内。【文件】→【保存】或者【文件】→【另存为】(2)点击变量视图,新设定inconme变量,类型为数值。(3)选择菜单【数据】→【分割文件】。选择拆分数据后,输出结果的排列方式,该对话框提供了3种方式:对全部观测进行分析,不进行拆分;在输出结果种将各组的分析结果放在一起进行比较;按组排列输出结果,即单独显示每一分组的分析结果。选择分组变量,选择数据的排序方式,单击ok按钮,执行操作(4)【数据】→【选择个案】→【如果】→【salary>40000】.(5) 【转换】→【计算变量】
目标变量为income,综合如果和数字表达式设计income。
结果:(3)和(4)和(5)
四、试验总结
理解并掌握SPSS软件包有关数据文件创建和整理的基本操作,学习如何将收集到的数据输入计算机,建成一个正确的SPSS数据文件,并掌握如何对原始数据文件进行整理,包括数据查询,数据修改、删除,数据的排序。
试验2:描述统计
一、试验目的
统计分析的目的在于研究总体特征。但是,由于各种各样的原因,我们能够得到的往往只能是从总体中随机抽取的一部分观察对象,他们构成了样本,只有通过对样本的研究,我们才能对总体的实际情况作出可能的推断。因此描述性统计分析是统计分析的第一步,做好这一步是进行正确统计推断的先决条件。通过描述性统计分析可以大致了解数据的分布类型和特点、数据分布的集中趋势和离散程度,或对数据进行初步的探索性分析(包括检查数据是否有错误,对数据分布特征和规律进行初步观察)。
本试验旨在于:引到学生利用正确的统计方法对数据进行适当的整理和显示,描述并探索出数据内在的数量规律性,掌握统计思想,培养学生学习统计学的兴趣,为继续学习推断统计方法及应用各种统计方法解决实际问题打下必要而坚实的基础。
二、试验内容
完成下列试验内容,并按试验(1)所附试验报告的格式撰写报告。
1.表2.7为某班级16位学生的身高数据,对其进行频数分析,并对实验报告作出说明。
表2.7 某班16位学生的身高数据
学号 | 性别 | 身高(cm) | 学号 | 性别 | 身高(cm) |
1 | M | 170 | 9 | M | 150 |
2 | F | 173 | 10 | M | 157 |
3 | F | 169 | 11 | F | 177 |
4 | M | 155 | 12 | M | 160 |
5 | F | 174 | 13 | F | 169 |
6 | F | 178 | 14 | M | 154 |
7 | M | 156 | 15 | F | 172 |
8 | F | 171 | 16 | F | 180 |
表2.8 18台笔记本电脑重量表
序号 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 |
重量 | 1.75 | 1.92 | 1.59 | 1.85 | 1.83 | 1.68 | 1. | 1.70 | 1.79 |
序号 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 |
重量 | 1.66 | 1.80 | 1.83 | 2.05 | 1.91 | 1.76 | 1.88 | 1.83 | 1.79 |
1.【分析】—>【描述统计】—>【频率】。选择身高填入变量勾选显示频率表格,在同一窗口上,点击“Statistics”按钮,打开统计量对话框,选择统计输出选项
2. 【分析】→【描述统计】→【描述】。将待分析的变量移入Variables列表框,Save standardized values as variables,对所选择的每个变量进行标准化处理,产生相应的Z分值,作为新变量保存在数据窗口中。其变量名为相应变量名前加前缀z。标准化计算公式:
单击【选项】按钮,如图2.8 所示,选择需要计算的描述统计量。
结果:
統計資料 | ||
身高 | ||
N | 有效 | 16 |
遺漏 | 0 | |
平均數 | 166.56 | |
中位數 | 169.50 | |
眾數 | 169 | |
標準偏差 | 9.668 | |
變異數 | 93.463 | |
偏斜度 | -.367 | |
偏斜度標準誤 | .5 | |
峰度 | -1.330 | |
峰度標準誤 | 1.091 | |
最小值 | 150 | |
最大值 | 180 | |
百分位數 | 25 | 156.25 |
50 | 169.50 | |
75 | 173.75 |
四、实验总结
1.某班级16位同学的身高大部分高于平均数,极少部分小于166.56cm,身高分布图呈现左偏,走势比正态分布缓和。说明身高变化起伏不大。
2.从偏态和峰度指标看出,重量的分布基本符合正态分布,重量基本处于一个固定范围内。没有太大起伏变化,
试验3:统计推断
一、试验目的
1.熟悉点估计概念与操作方法
2.熟悉区间估计的概念与操作方法
3.熟练掌握T检验的SPSS操作
4.学会利用T检验方法解决身边的实际问题
二、试验内容
1.某省大学生四级英语测验平均成绩为65,现从某高校随机抽取20份试卷,其分数为:72、76、68、78、62、59、、85、70、75、61、74、87、83、54、76、56、66、68、62,问该校英语水平与全区是否基本一致?设α=0.05
2.分析某班级学生的高考数学成绩是否存在性别上的差异。数据如表所示:
某班级学生的高考数学成绩
性别 | 数学成绩 |
男(n=18) | 85 75 58 86 80 78 76 84 99 95 82 87 60 85 75 80 |
女(n=12) | 92 96 86 83 78 87 70 65 70 65 70 78 72 56 |
三、试验步骤和结果
1.新建spss数据。计算样本均值的区间估计,采用“单样本T 检验”方法。选择菜单“ 【分析】→【比较均值】→【单样本T检验】
2. 选择菜单“ 【分析】→【比较均值】→【样本T检验】,将成绩作为检验变量,性别作为分组变量,定义组为0和1.
1.
單一樣本統計資料 | ||||
N | 平均數 | 標準偏差 | 標準錯誤平均值 | |
成绩 | 20 | 69.80 | 9.474 | 2.118 |
單一樣本檢定 | ||||||
檢定值 = 65 | ||||||
T | df | 顯著性 (雙尾) | 平均差異 | 95% 差異數的信賴區間 | ||
下限 | 上限 | |||||
成绩 | 2.266 | 19 | .035 | 4.800 | .37 | 9.23 |
群組統計資料 | |||||
性别 | N | 平均數 | 標準偏差 | 標準錯誤平均值 | |
成绩 | 男 | 18 | 81.28 | 10.369 | 2.444 |
女 | 14 | 76.29 | 11.432 | 3.055 |
四、试验总结
1.如上图所示:最右侧给出的均值的标准误是对样本均属抽样误差大小的描述指标。用于比较的假设均值为65,从左到右依次T,自由度,P值,置信区间。此样本的平均值为69.80,显著性p值为0.035<0.05,拒绝原假设,即该校英语水平与全区不一致,高于全区水平。
2. 如上图所示:此样本按性别分组平均值分别为81.85和76.29,F统计量为0.7,显著性p值为0.428>0.05,没有理由拒绝原假设,即该班级学生的高考数学成绩是存在性别上的差异。
试验4:方差分析
一、试验目标
1.帮助学生深入了解方差及方差分析的基本概念,掌握方差分析的基本思想和原理
2.掌握方差分析的过程。
3.增强学生的实践能力,使学生能够利用SPSS统计软件,熟练进行单因素方差分析、两因素方差分析等操作,激发学生的学习兴趣,增强自我学习和研究的能力。
二、试验内容
1. 用SPSS进行单因素方差分析。某个年级有三个小班,他们进行了一次数据考试,现从各班随机地抽取了一些学生,记录其成绩如表。原始数据文件保存为“数学考试成绩.sav”。试在显著性水平0.05下检验各班级的平均分数有无显著差异。
数学考试成绩表
Ⅰ | Ⅱ | Ⅲ | |||
73 | 66 | 88 | 77 | 68 | 41 |
60 | 78 | 31 | 79 | 59 | |
82 | 45 | 48 | 78 | 56 | 68 |
43 | 93 | 91 | 62 | 91 | 53 |
80 | 36 | 51 | 76 | 71 | 79 |
73 | 77 | 85 | 96 | 71 | 15 |
78 | 79 | 74 | 80 | 87 | 75 |
76 | 87 | 56 | 85 | 97 |
学生思考水平提高的成绩
方式1 | 37 | 42 | 42 | 43 | 41 | 42 | 45 | 46 | 41 | 40 |
方式2 | 49 | 48 | 48 | 48 | 47 | 45 | 46 | 47 | 48 | 49 |
方式3 | 33 | 33 | 35 | 32 | 31 | 35 | 34 | 32 | 32 | 33 |
三、试验步骤与结果
♦1. 选择菜单【分析】→【比较均值】→【单因素方差分析】,依次将观测变量成绩移入因变量列表框,将因素变量方式移入因子列表框。单击选项按钮,选择方差同质性检验复选框,输出方差齐性检验结果;选中均值图复选框,输出不同因素水平下观测变量的均值直线图。
2.该数据中因变量是提高的成绩,因素是方式,在数据中建立两个变量:一为提高的成绩,二为方式,将分成三类分别为方式一、方式二、方式三。最后进行显著性差异。选择菜单【分析】→【比较均值】→【单因素方差分析】,依次将观测变量提高的成绩移入因变量列表框,将因素变量方式移入因子列表框。单击两两比较按钮,该对话框用于进行多重比较检验,即各因素水平下观测变量均值的两两比较。选择正确的检验方法。
结果
1.
變異數同質性測試 | |||
成绩 | |||
Levene 統計資料 | df1 | df2 | 顯著性 |
.115 | 2 | 45 | .2 |
變異數分析 | |||||
成绩 | |||||
平方和 | df | 平均值平方 | F | 顯著性 | |
群組之間 | 105.292 | 2 | 52.6 | .153 | .859 |
在群組內 | 15505.375 | 45 | 344.5 | ||
總計 | 15610.667 | 47 |
變異數分析 | |||||
提高的成绩 | |||||
平方和 | df | 平均值平方 | F | 顯著性 | |
群組之間 | 1069.400 | 2 | 534.700 | 165.182 | .000 |
在群組內 | 87.400 | 27 | 3.237 | ||
總計 | 1156.800 | 29 |
多重比較 | ||||||
因變數: 提高的成绩 | ||||||
Tamhane | ||||||
(I) 方式 | (J) 方式 | 平均差異 (I-J) | 標準錯誤 | 顯著性 | 95% 信賴區間 | |
下限 | 上限 | |||||
方式一 | 方世二 | -5.600* | .1 | .000 | -8.03 | -3.17 |
方式三 | 8.900* | .900 | .000 | 6.45 | 11.35 | |
方世二 | 方式一 | 5.600* | .1 | .000 | 3.17 | 8.03 |
方式三 | 14.500* | .582 | .000 | 12.97 | 16.03 | |
方式三 | 方式一 | -8.900* | .900 | .000 | -11.35 | -6.45 |
方世二 | -14.500* | .582 | .000 | -16.03 | -12.97 | |
*. 平均值差異在 0.05 層級顯著。 |
1.如第一张表所示,显著性为0.2>0.05,所以符合方差齐性以及正态分布, 表2中,群组之间显著性为0.859>0.05,所以没有理由拒绝原假设,即在显著性水平0.05下检验各班级的平均分数有显著差异。
2.第三表中,由于p=0.000<0.05说明在α=0.05显著性水平下,F检验是显著的。即认为各个方式下提高的成绩并不完全相同。如前所述,拒绝单因素方差分析原假设并不能得出给个方式下提高的成绩并不相同的结论。各地区销量均值的两两比较要看表4所示的多重比较检验结果。表中上半部分为LSD检验结果,下半部分为Tamhane检验结果。由于方差满足齐性,所以这里应该看LSD检验结果。表中的平均差異列给出了不同方式下提高的成绩的平均值之差。其中后面带“﹡”号的表示销量有显著差异,没有带“﹡”号的表示没有显著差异。可以看出,每个方式之间都有显著性差异。
试验5:相关分析与回归分析
一、试验目标
本试验项目的目的是学习并使用SPSS软件进行相关分析和回归分析,具体包括:
皮尔逊pearson简单相关系数的计算与分析
学会在SPSS上实现一元及多元回归模型的计算与检验。
学会回归模型的散点图与样本方程图形。
学会对所计算结果进行统计分析说明。
要求试验前,了解回归分析的如下内容。
参数α、β的估计
回归模型的检验方法:回归系数β的显著性检验(t-检验);回归方程显著性检验(F-检验)。
二、试验内容
现有1987~2003年湖南省全社会固定资产投资总额NINV和GDP两个指标的年度数据,见下表。试研究全社会固定资产投资总额和GDP的数量关系,并建立全社会固定资产投资总额和GDP之间的线性回归方程。
湖南省全社会固定资产投资和GDP年度数据
年份 | GDP(亿元) | NINV(亿元) | 年份 | GDP(亿元) | NINV(亿元) |
1987 | 509.44 | 120.38 | 1995 | 2195.7 | 523 |
1988 | 614.07 | 144.71 | 1996 | 27.16 | 684.14 |
19 | 682.8 | 114.51 | 1997 | 2993 | 667.39 |
1990 | 744.44 | 121.24 | 1998 | 3118.1 | 796.9 |
1991 | 833.3 | 156.39 | 1999 | 3326.8 | 883.9 |
1992 | 997.7 | 234.4 | 2000 | 3691.88 | 1012.2 |
1993 | 1278.28 | 324.58 | 2001 | 3983 | 1174.3 |
1994 | 1694.42 | 422.18 | 2002 | 4140.94 | 1348 |
1. 绘制散点图:选择【图形】-【旧对话框】-【散点/点状】。
2. 简单相关分析:选择“【分析】→【相关】→【双变量】”打开对话框如图,将待分析的2个指标移入右边的变量列表框内。其他均可选择默认项,单击ok提交系统运行
3. 线性回归分析: 1.选择菜单“【分析】—>【回归】—>【线性】”,打开Linear Regression 对话框。将ninv移入Dependent列表框中,将gdp移入Independents列表框中。在Method 框中选择Enter 选项,表示所选自变量全部进入回归模型。 2.单击Statistics按钮,该对话框中设置要输出的统计量。这里选中估计、模型拟合度复选框。
结果:
相關 | |||
gdp | ninv | ||
gdp | 皮爾森 (Pearson) 相關 | 1 | .985** |
顯著性 (雙尾) | .000 | ||
N | 16 | 16 | |
ninv | 皮爾森 (Pearson) 相關 | .985** | 1 |
顯著性 (雙尾) | .000 | ||
N | 16 | 16 | |
**. 相關性在 0.01 層上顯著(雙尾)。 |
1.建立散点图可直观地看出ninv与gdp之间存在线性相关关系.2.从表中可得到两变量之间的皮尔逊相关系数为0.985,双尾检验概率p值尾0.000<0.01,故变量之间显著相关。根据全社会固定资产投资总额和GDP之间的散点图与相关分析显示,住房支出与年收入之间存在显著的正相关关系。在此前提下进一步进行回归分析,建立一元线性回归方程。
3. 回归模型的拟和优度(R Square)、调整的拟和优度(Adjusted R Square)、估计标准差(Std. Error of the Estimate)以及Durbin-Watson统计量。从结果来看,回归的可决系数和调整的可决系数分别为0.970和0.968,即住房支出的90%以上的变动都可以被该模型所解释,拟和优度较高。回归模型的方差分析表,可以看到,F统计量为454.061,对应的p值为0,所以,拒绝模型整体不显著的原假设,即该模型的整体是显著的。表中给出了回归系数、回归系数的标准差、标准化的回归系数值以及各个回归系数的显著性t检验。从表中可以看到无论是常数项还是解释变量x,其t统计量对应的p值都小于显著性水平0.05,因此,在0.05的显著性水平下都通过了t检验。变量x的回归系数为3.192,即gdp每增加1亿元,ninv就增加3.192.