
要求:数据计算题要求注明选用的统计分析模块和输出结果;并解释结果的意义。 完成后将作业电子稿发送至
1. 某单位对100名女生测定血清总蛋白含量,数据如下:
74.3 78.8 68.8 78.0 70.4 80.5 80.5 69.7 71.2 73.5
79.5 75.6 75.0 78.8 72.0 72.0 72.0 74.3 71.2 72.0
75.0 73.5 78.8 74.3 75.8 65.0 74.3 71.2 69.7 68.0
73.5 75.0 72.0 .3 75.8 80.3 69.7 74.3 73.5 73.5
75.8 75.8 68.8 76.5 70.4 71.2 81.2 75.0 70.4 68.0
70.4 72.0 76.5 74.3 76.5 77.6 67.3 72.0 75.0 74.3
73.5 79.5 73.5 74.7 65.0 76.5 81.6 75.4 72.7 72.7
67.2 76.5 72.7 70.4 77.2 68.8 67.3 67.3 67.3 72.7
75.8 73.5 75.0 73.5 73.5 73.5 72.7 81.6 70.3 74.3
73.5 79.5 70.4 76.5 72.7 77.2 84.3 75.0 76.5 70.4
计算样本均值、中位数、方差、标准差、最大值、最小值、极差、偏度和峰度,并给出均值的置信水平为95%的置信区间。
解:
| 描述 | ||||
| 统计量 | 标准误 | |||
| 血清总蛋白含量 | 均值 | 73.6680 | .393 | |
| 均值的 95% 置信区间 | 下限 | 72.88 | ||
| 上限 | 74.4496 | |||
| 5% 修整均值 | 73.6533 | |||
| 中值 | 73.5000 | |||
| 方差 | 15.515 | |||
| 标准差 | 3.932 | |||
| 极小值 | .30 | |||
| 极大值 | 84.30 | |||
| 范围 | 20.00 | |||
| 四分位距 | 4.60 | |||
| 偏度 | .054 | .241 | ||
| 峰度 | .037 | .478 | ||
2. 绘出习题1所给数据的直方图、盒形图和QQ图,并判断该数据是否服从正态分布。
解:
| 正态性检验 | ||||||
| Kolmogorov-Smirnova | Shapiro-Wilk | |||||
| 统计量 | df | Sig. | 统计量 | df | Sig. | |
| 血清总蛋白含量 | .073 | 100 | .200* | .990 | 100 | .671 |
| a. Lilliefors 显著水平修正 | ||||||
| *. 这是真实显著水平的下限。 | ||||||
3. 正常男子血小板计数均值为, 今测得20名男性油漆工作者的血小板计数值(单位:)如下:
220 188 162 230 145 160 238 188 247 113
126 245 1 231 256 183 190 158 224 175
问油漆工人的血小板计数与正常成年男子有无异常?
解:
下表给出了单样本T检验的描述性统计量,包括样本数(N)、均值、标准差、均值的标准误差:
| 单个样本统计量 | ||||
| N | 均值 | 标准差 | 均值的标准误 | |
| 血小板计数值 | 20 | 192.1500 | 42.23652 | 9.44437 |
| 单个样本检验 | ||||||
| 检验值 = 225 | ||||||
| t | df | Sig.(双侧) | 均值差值 | 差分的 95% 置信区间 | ||
| 下限 | 上限 | |||||
| 血小板计数值 | -3.478 | 19 | .003 | -32.85000 | -52.6173 | -13.0827 |
4. 在某次考试中,随机抽取男女学生的成绩各10名,数据如下:
男:99 79 59 79 99 82 80 85
女:88 54 56 23 75 65 73 50 80 65
假设总体服从正态分布,比较男女得分是否有显著性差异。
解:
| 组统计量 | |||||
| 性别 | N | 均值 | 标准差 | 均值的标准误 | |
| 成绩 | a | 10 | 84.0000 | 11.52774 | 3.539 |
| b | 10 | 62.9000 | 18.45385 | 5.83562 | |
| 样本检验 | ||||||||||
| 方差方程的 Levene 检验 | 均值方程的 t 检验 | |||||||||
| 差分的 95% 置信区间 | ||||||||||
| F | Sig. | t | df | Sig.(双侧) | 均值差值 | 标准误差值 | 下限 | 上限 | ||
| 成绩 | 假设方差相等 | 1.607 | .221 | 3.067 | 18 | .007 | 21.10000 | 6.88065 | 6.429 | 35.55571 |
| 假设方差不相等 | 3.067 | 15.096 | .008 | 21.10000 | 6.88065 | 6.44235 | 35.75765 | |||
5. 设有5种治疗荨麻疹的药,要比较它们的疗效。假设将30个病人分成5组,每组6人,令同组病人使用一种药,并记录病人从使用药物开始到痊愈所需时间,得到下面的记录:
| 药物类别 | 治愈所需天数 |
| 1 | 5,8,7,7,10,8 |
| 2 | 4,6,6,3,5,6 |
| 3 | 6,4,4,5,4,3 |
| 4 | 7,4,6,6,3,5 |
| 5 | 9,3,5,7,7,6 |
解:
| ANOVA | |||||
| 治愈所需天数 | |||||
| 平方和 | df | 均方 | F | 显著性 | |
| 组间 | 36.467 | 4 | 9.117 | 3.6 | .014 |
| 组内 | 58.500 | 25 | 2.340 | ||
| 总数 | 94.967 | 29 | |||
通过上面的步骤,只能判断5种药物对人的效果是否有显著差异。如果想进一步了解究竟是哪种药物与其他组有显著性的均值差别(即哪种药物更好)等细节问题,就需要在多个样本均值间进行两两比较。由于第3步检验出来方差具有齐性,故选择一种方差相等的方法,这里选LSD方法;显著性水平默认取0.05;
| 多重比较 | |||||||
| 因变量:治愈所需天数 | |||||||
| (I) 药物类别 | (J) 药物类别 | 均值差 (I-J) | 标准误 | 显著性 | 95% 置信区间 | ||
| 下限 | 上限 | ||||||
| LSD | 1.00 | 2.00 | 2.50000* | .88318 | .009 | .6811 | 4.31 |
| 3.00 | 3.16667* | .88318 | .001 | 1.3477 | 4.9856 | ||
| 4.00 | 2.33333* | .88318 | .014 | .5144 | 4.1523 | ||
| 5.00 | 1.33333 | .88318 | .144 | -.4856 | 3.1523 | ||
| 2.00 | 1.00 | -2.50000* | .88318 | .009 | -4.31 | -.6811 | |
| 3.00 | .66667 | .88318 | .457 | -1.1523 | 2.4856 | ||
| 4.00 | -.16667 | .88318 | .852 | -1.9856 | 1.6523 | ||
| 5.00 | -1.16667 | .88318 | .198 | -2.9856 | .6523 | ||
| 3.00 | 1.00 | -3.16667* | .88318 | .001 | -4.9856 | -1.3477 | |
| 2.00 | -.66667 | .88318 | .457 | -2.4856 | 1.1523 | ||
| 4.00 | -.83333 | .88318 | .354 | -2.6523 | .9856 | ||
| 5.00 | -1.83333* | .88318 | .048 | -3.6523 | -.0144 | ||
| 4.00 | 1.00 | -2.33333* | .88318 | .014 | -4.1523 | -.5144 | |
| 2.00 | .16667 | .88318 | .852 | -1.6523 | 1.9856 | ||
| 3.00 | .83333 | .88318 | .354 | -.9856 | 2.6523 | ||
| 5.00 | -1.00000 | .88318 | .268 | -2.81 | .81 | ||
| 5.00 | 1.00 | -1.33333 | .88318 | .144 | -3.1523 | .4856 | |
| 2.00 | 1.16667 | .88318 | .198 | -.6523 | 2.9856 | ||
| 3.00 | 1.83333* | .88318 | .048 | .0144 | 3.6523 | ||
| 4.00 | 1.00000 | .88318 | .268 | -.81 | 2.81 | ||
| *. 均值差的显著性水平为 0.05。 | |||||||
上图为几种药物均值的折线图,可以看均值差异较大。
6. 某公司在各地区销售一种特殊化妆品。该公司观测了15 个城市在某月内对该化妆品的销售量Y及各地区适合使用该化妆品的人数X1和人均收入X2,得到数据如下:
| 地区 | 销售(箱) | 人数(千人) | 人均收入(元) |
| 1 | 162 | 274 | 2450 |
| 2 | 120 | 180 | 3254 |
| 3 | 223 | 375 | 3802 |
| 4 | 131 | 205 | 2838 |
| 5 | 67 | 86 | 2347 |
| 6 | 169 | 265 | 3782 |
| 7 | 81 | 98 | 3008 |
| 8 | 192 | 330 | 2450 |
| 9 | 116 | 195 | 2137 |
| 10 | 55 | 53 | 2560 |
| 11 | 252 | 430 | 4020 |
| 12 | 232 | 372 | 4427 |
| 13 | 144 | 236 | 2660 |
| 14 | 103 | 157 | 2088 |
| 15 | 212 | 370 | 2605 |
解:
| 相关性 | |||
| 人均收入X2 | 销售Y | ||
| 人均收入X2 | Pearson 相关性 | 1 | .639* |
| 显著性(双侧) | .010 | ||
| 平方与叉积的和 | 7473615.733 | 405762.200 | |
| 协方差 | 533829.695 | 283.014 | |
| N | 15 | 15 | |
| 销售Y | Pearson 相关性 | .639* | 1 |
| 显著性(双侧) | .010 | ||
| 平方与叉积的和 | 405762.200 | 53901.600 | |
| 协方差 | 283.014 | 3850.114 | |
| N | 15 | 15 | |
| *. 在 0.05 水平(双侧)上显著相关。 | |||
| 相关性 | |||
| 人数X1 | 人均收入X2 | ||
| 人数X1 | Pearson 相关性 | 1 | .569* |
| 显著性(双侧) | .027 | ||
| 平方与叉积的和 | 191088.933 | 679452.467 | |
| 协方差 | 139.210 | 48532.319 | |
| N | 15 | 15 | |
| 人均收入X2 | Pearson 相关性 | .569* | 1 |
| 显著性(双侧) | .027 | ||
| 平方与叉积的和 | 679452.467 | 7473615.733 | |
| 协方差 | 48532.319 | 533829.695 | |
| N | 15 | 15 | |
| *. 在 0.05 水平(双侧)上显著相关。 | |||
| 相关性 | |||
| 销售Y | 人数X1 | ||
| 销售Y | Pearson 相关性 | 1 | .995** |
| 显著性(双侧) | .000 | ||
| 平方与叉积的和 | 53901.600 | 101031.400 | |
| 协方差 | 3850.114 | 7216.529 | |
| N | 15 | 15 | |
| 人数X1 | Pearson 相关性 | .995** | 1 |
| 显著性(双侧) | .000 | ||
| 平方与叉积的和 | 101031.400 | 191088.933 | |
| 协方差 | 7216.529 | 139.210 | |
| N | 15 | 15 | |
| **. 在 .01 水平(双侧)上显著相关。 | |||
(2)同时预测适合购买此化妆品的人数为220千人,人均收入为2500元的某城市对该化妆品的销量。
| 输入/移去的变量 | |||
| 模型 | 输入的变量 | 移去的变量 | 方法 |
| 1 | 人均收入X2, 人数X1a | . | 输入 |
| a. 已输入所有请求的变量。 | |||
| 模型汇总 | |||||||||
| 模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 | 更改统计量 | ||||
| R 方更改 | F 更改 | df1 | df2 | Sig. F 更改 | |||||
| 1 | .999a | .999 | .999 | 2.17722 | .999 | 5679.466 | 2 | 12 | .000 |
| a. 预测变量: (常量), 人均收入X2, 人数X1。 | |||||||||
| Anovab | ||||||
| 模型 | 平方和 | df | 均方 | F | Sig. | |
| 1 | 回归 | 53844.716 | 2 | 26922.358 | 5679.466 | .000a |
| 残差 | 56.884 | 12 | 4.740 | |||
| 总计 | 53901.600 | 14 | ||||
| a. 预测变量: (常量), 人均收入X2, 人数X1。 | ||||||
| b. 因变量: 销售Y | ||||||
| 系数a | |||||||||||
| 模型 | 非标准化系数 | 标准系数 | t | Sig. | B 的 95.0% 置信区间 | 相关性 | |||||
| B | 标准 误差 | 试用版 | 下限 | 上限 | 零阶 | 偏 | 部分 | ||||
| 1 | (常量) | 3.453 | 2.431 | 1.420 | .181 | -1.843 | 8.749 | ||||
| 人数X1 | .496 | .006 | .934 | 81.924 | .000 | .483 | .509 | .995 | .999 | .768 | |
| 人均收入X2 | .009 | .001 | .108 | 9.502 | .000 | .007 | .011 | .639 | .940 | .0 | |
| a. 因变量: 销售Y | |||||||||||
回归系数的显著性水平为0.000,明显小于0.05,故应拒绝T检验的原假设,这也说明了回归系数的显著性,说明建立线性模型是恰当的。
那么当化妆品的人数为220千人,人均收入为2500元,代入到上面公式可以得到Y=0.496*220000+0.009*2500=109142.5元。
7. 研究青春发育阶段的年龄和远视率的变化关系,测得数据如下
| 年龄 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 远视率 | 63. | 61.06 | 38.84 | 13.75 | 14.5 | 8.07 | 4.41 | 2.27 | 2.09 | 1.02 | 2.51 | 3.12 | 2.98 |
解:
线性
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .821 | .674 | .4 | 13.498 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .939 | .882 | .871 | 8.128 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .908 | .825 | .809 | 9.6 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .971 | .943 | .931 | 5.937 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .979 | .959 | .945 | 5.313 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .1 | .794 | .775 | .650 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .923 | .851 | .838 | .553 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .1 | .794 | .775 | .650 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .1 | .794 | .775 | .650 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .1 | .794 | .775 | .650 |
| 模型汇总 | |||
| R | R 方 | 调整 R 方 | 估计值的标准误 |
| .1 | .794 | .775 | .650 |
| ANOVA | |||||
| 平方和 | df | 均方 | F | Sig. | |
| 回归 | 5887.850 | 3 | 1962.617 | 69.538 | .000 |
| 残差 | 254.013 | 9 | 28.224 | ||
| 总计 | 6141.863 | 12 | |||
| 系数 | |||||
| 未标准化系数 | 标准化系数 | t | Sig. | ||
| B | 标准误 | Beta | |||
| 个案顺序 | -25.922 | 4.829 | -4.462 | -5.368 | .000 |
| 个案序列 ** 2 | 2.361 | .786 | 5.847 | 3.002 | .015 |
| 个案序列 ** 3 | -.069 | .037 | -2.213 | -1.868 | .095 |
| (常数) | 93.576 | 8.107 | 11.543 | .000 | |
y=-93.576-25.922*x+2.361*x2-0.069*x3
拟合效果图:
从图形上看,拟合效果很好。
8. 谈谈你对数理统计和统计软件课程的学习心得和想法,有何收获,有何建议等。
关于SPSS软件的学习已经有一段时间了,初次接触这个软件是在上次数学建模比赛,因为统计的需要,所以我就大概的了解了一下,这次通过系统的学习,发现自己对以前利用SPSS统计的数据已经有了更深的认识,知道了一些统计数据的具体涵义。
提到SPSS,我们初步学习了怎么分析一些数据;怎样利用图表来显示数据,使我们更加直观的通过图表来显示数据之间的关系;怎样通过探索分析,寻求数据之间的交错关系;知道了几种常见的统计方法:假设检验,方差分析,回归分析;有些情况下还要用到非参数检验……总之,对SPSS的学习,感觉自己的知识又有了增加,而且通过这次学习,深刻的了解到了要学好数理统计的重要性,明白了数理统计也是学好这个软件,分析数据的基础;知道了理论与实践相结合的内涵,一定要在学好理论的基础上也要学会利用软件来处理一些问题,做到学有所用,融会贯通!
