
教学目的:
1.理解全距、四分位距、百分位距、平均差、方差、标准差和差异系数等概念;
2.掌握各种差异量指标的计算方法。
数据的分布特征不仅有集中趋势,还有离中趋势。以动态的眼光,从不同的角度看,数据是向中间变动的,也是向两端变动的。两组数据可能平均水平相同,但两组数据的分布特征并不完全相同。
【如】:比较下列两组数据
A组:88、82、73、76、81
B组:92、86、70、72、80
两组平均数但RA=88-73=15,RB=92-70=22。即A组较集中,B组较分散。因此,我们描述一组数据的分布特征,既要描述其集中趋势,也要描述其离中趋势。
差异量:表示一组数据的离中趋势或变异程度的量称为差异量。
常用的差异量指标有全距、四分位距、百分位距、平均差、方差、标准差和差异系数。
第一节 全距、四分位距、百分位距
一、全距
全距:是一组数距中最大值与最小值之差。
优点:意义明确,计算方便。
缺点:反应不灵敏,易受极端值影响。
二、四分位距
(一)四分位距的的概念
四分位距:是指一组按大小顺序排列的数据中间部位50%个频数距离的一半。
QD:表示四分位距;
Q3:表示第三四分位数;
Q1:表示第一四分位数。
所以:四分位距的公式又为:
(二)四分位数的计算方法
1、原始数据计算法
(1)将数据由小到大进行排列;
(2)分别求出三位四分位数(点);
(3)代入公式计算。
【例如】:有以下16个数据25、22、29、12、40、15、14、39、37、31、33、19、17、20、35、30,其中四分位距的计算方法如下:
(1)先将原始数据从小到大排列好;
12、14、15、17、*19、20、22、25、*29、30、31、33、*35、37、39、40
Q1=18 Md=27 Q3=34
(2)求出Q1、Md、Q3;
(3)将Q1、Md、Q3的得数代入公式(4.1)。
2、频数分布表计算法
利用频数分布表计算公式为:
关键是分别计算P75和P25,百分位数计算方法掌握了,这里的计算就不会有什么问题。
(三)优缺点
优点:意义明确,不受极端值影响。
缺点:反应不灵敏。
三、百分位距
百分位距:是指两个百分位数之差。
常用的百分位距有两种:P90-P10和P93-P7
优点:意义明确,不受极值影响。
缺点:反映不灵敏。
第二节 平均差
一、平均差的概念
平均差:是指每个数据与本组数据的平均数(或中位数)之差的绝对值的算术平均数(用MD表示)。
二、平均差的计算方法
1、原始数据计算法
公式为:
【如】:求88、82、73、76、81的平均差。
2、频数分布表计算法
公式为:
【例】:求表4.1中30数据的平均差。
表4.1 30个分数的频数分布表
| 分数 | 60— | 70- | 80- | 90- |
| 频数 | 5 | 12 | 10 | 3 |
| 组中值 | 65 | 75 | 85 | 95 |
三、平均差的优缺点
优点:意义明确,反应灵敏。
缺点:不适合代数运算。
第三节 方差和标准差
一、方差和标准差的概念
1.方差:是一组数据离差平方的算术平均数(用表示)。
定义公式为:
2、方差的方根即标准差
例:求72,78,80,86的方差和标准差
解:(1)求算术平均数
(2)求方差
(3)求标准差
※:标准差的值越大,说明数据越分散。
二、方差和标准差的计算方法
1.原始数据计算法
所以得:
【例】:计算80、78、84、80、72的方差和标准差。
解:
2.频数分布表计算法
公式为:
例题:参看教材48。
三、方差和标准差的优缺点:
优点:严密确定,反映灵敏,适合代数运算。
缺点:不太容易理解,易受两极端值影响。
第四节相对差异量
一、相对差异量的概念
平均差、方差、标准差等都带有单位,是绝对差异量。常常不能对不同组的数据差异直接比较。
差异系数:也叫相对差异量,是指同一组数据的标准差与算术平均数的百分比(用CV表示)。
公式为:
CV值越大,表明数据离散程度越大。
二、差异系数的用途
1.比较不同单位资料的差异程度。
【例题】:某班学生的平均身高为152cm,标准差为5.1cm;平均体重为47公斤,标准差为3.2公斤,问该班学生身高变异大还是体重变异大?
解:
得:该班学生体重变异大。
2.比较单位相同平均数差异较大的两组资料的差程度。
【如】:某班语文测验平均分为86.5分,标准差为5.5分;英语平均分为71分,标准差为5分,则:
所以,英语成绩的变异大。
3.可判断特殊情况:
一般CV值在5%~35%之间。
第五节偏态量和峰态量
偏态量和峰态量:是判断频数分布是否为正态分布的统计量,是一种粗略指标。
正态性检验常用检验。
一、偏态量
偏态量有两种计算方法
1.皮尔逊指数法
当SK=0则分布是对称形;当SK>0时,分布为正偏;当SK< 0时,分布为负偏。
【例】:某校200名学生的英语平均分为80分,中位数为82分,标差为8分,其偏态度为:解:
2.根据动差来计算
动差:是指力与力距的乘积(力学中的概念)。
当=0时,分布对称;当>0时,分布是正偏态;当<0时,分布是负偏态。计算时,N应大于200.
例题:参看教材57页。
二、峰态量
峰态量:是用于说明分布曲线高狭和低阔程度的量。
1.用两个百分位距来计算
当Ku=0.263时,分布是正态峰;当Ku<0.263时,分布为高狭峰;当Ku>0.263时,分布低阔。
表4.1 小学二年级80个学生身高的四分位距计算表
| 身高 | 频数 | 累计频数 | 计算四分位距 | ||
| 115- | 1 | n1=12 | n2=12 | 1 | |
| 118- | 3 | 4 | |||
| 121- | 8 | 12 | Q1=126.40 | ||
| 124- | 10 | 22 | |||
| 127- | 20 | 42 | Q3=132.84 | ||
| 130- | 19 | 61 | QD=3.22 | ||
| 133- | 12 | 73 | |||
| 136- | 4 | 77 | |||
| 139- | 2 | 79 | |||
| 142- | 1 | 80 | |||
| 总和 | 80 | ||||
2、根据动差来计算
当α4=0时,分布是正态峰;当α4>0时,分布是高狭峰;当α4<0时,分布是低阔峰。
计算α4时,N应大于1000,峰态系数方比较可靠。
表4.4 以平均数为原点四种动差的计算表
| X | ||||
| 56 | -15.5 | 240.25 | -3 723.88 | 57 720.14 |
| 58 | -13.50 | 182.25 | -2 460.38 | 33 215.13 |
| 61 | -10.50 | 110.25 | -1 157.63 | 12 155.12 |
| 63 | -8.50 | 72.25 | -614.13 | 5 220.11 |
| 70 | -1.50 | 2.25 | -3.38 | 5.07 |
| 74 | 20.5 | 6.25 | 15.63 | 39.08 |
| 79 | 7.50 | 56.25 | 421.88 | 3 1.10 |
| 84 | 12.50 | 156.20 | 1 953.13 | 24 414.13 |
| 84 | 12.50 | 156.25 | 1 953.13 | 24 414.13 |
| 86 | 14.50 | 210.25 | 3 048.63 | 44 205.14 |
| 0 | 1 192.50 | -567.00 | 204 522.15 |
