『网络构建』
『核心归纳』
1.简单随机抽样
放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样(除非特殊声明,本章所称的简单随机抽样指不放回简单随机抽样).通过简单随机抽样获得的样本称为简单随机样本.
2.抽签法
先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个不透明的盒里,充分搅拌.最后从盒中不放回地抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.
3.随机数法
先把总体中的个体编号,用随机数工具产生与总体中个体数量相等的整数随机数,把产生的随机数作为抽中的编号,并剔除重复的编号,直到抽足样本所需要的个体数.
4.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
5.获取数据的基本途径
(1)通过调查获取数据;(2)通过观察获取数据;(3)通过试验获取数据;(4)通过查询获取数据.
6.常用的统计图表
扇形图、条形图、频数分布直方图、折线图、频率分布直方图.
7.画频率分布直方图的步骤
(1)求极差;(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.
8.第p百分位数
(1)定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
(2)计算一组n个数据的第p百分位数的步骤
第1步,按从小到大排列原始数据.
第2步,计算i=n×p%.
第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.
9.众数、中位数和平均数的定义
(1)众数:一组数据中出现次数最多的数.
(2)中位数:一组数据按大小顺序排列后,处于中间位置的数.如果个数是偶数,则取中间两个数据的平均数.
(3)平均数:一组数据的和除以数据个数所得到的数.
10.一组数据x1,x2,…,xn的方差和标准差
数据x1,x2,…,xn的方差为 (xi-)2=x-2,标准差为.
要点一 抽样方法的应用
1.抽样方法有:简单随机抽样、分层随机抽样.
2.两种抽样方法比较
『例1』 一个单位有职工800人,其中具有高级职称的160人,具有中级职称的320人,具有初级职称的200人,其余人员120人.为了解职工收入情况,决定采用分层随机抽样的方法,从中抽取容量为40的样本.则从上述各层中依次抽取的人数分别是( )
A.12,24,15,9 B.9,12,12,7
C.8,15,12,5 D.8,16,10,6
『解 析』 因为抽样比为=,故各层中依次抽取的人数分别是=8,=16,=10,=6.
『答 案』 D
『训练1』 问题:①某小区有800户家庭,其中高收入家庭200户,中等收入家庭480户,低收入家庭120户,为了了解有关家用轿车购买力的某个指标,要从中抽取一个容量为100的样本;②从10名学生中抽取3人参加座谈会.方法:(1)简单随机抽样;(2)分层随机抽样.则问题与方法配对正确的是( )
A.①(1),②(2) B.①(2),②(1)
C.①(1),②(1) D.①(2),②(2)
『解 析』 问题①中的总体是由差异明显的几部分组成的,故可采用分层随机抽样方法;问题②中总体的个数较少,故可采用简单随机抽样.故匹配正确的是B.
『答 案』 B
要点二 用样本的取值规律估计总体的取值规律
与频率分布直方图有关问题的常见类型及解题策略
(1)已知频率分布直方图中的部分数据,求其他数据,可利用频率和等于1求解.
(2)已知频率分布直方图,求某种范围内的数据,可利用图形及某范围结合求解.
『例2』 下表给出了某校500名12岁男孩中用随机抽样得出的120人的身高资料(单位:cm):
区间界限 | 『122,126) | 『126,130) | 『130,134) | 『134,138) | 『138,142) |
人数 | 5 | 8 | 10 | 22 | 33 |
区间界限 | 『142,146) | 『146,150) | 『150,154) | 『154,158』 | |
人数 | 20 | 11 | 6 | 5 |
(2)画出频率分布直方图;
(3)估计身高低于134 cm的人数占总人数的百分比.
解 (1)列出样本频率分布表:
分组 | 频数 | 频率 |
『122,126) | 5 | 0.04 |
『126,130) | 8 | 0.07 |
『130,134) | 10 | 0.08 |
『134,138) | 22 | 0.18 |
『138,142) | 33 | 0.28 |
『142,146) | 20 | 0.17 |
『146,150) | 11 | 0.09 |
『150,154) | 6 | 0.05 |
『154,158』 | 5 | 0.04 |
合计 | 120 | 1.00 |
(3)因为样本中身高低于134 cm的人数的频率为=≈0.19.
所以估计身高低于134 cm的人数约占总人数的19%.
『训练2』 某班的全体学生参加英语测试,成绩的频率分布直方图如图所示,数据的分组依次为『20,40),『40,60),『60,80),『80,100』.若低于60分的人数是15,则该班的学生人数是( )
A.45 B.50
C.55 D.60
『解 析』 由频率分布直方图,知低于60分的频率为(0.010+0.005)×20=0.3.∴该班学生人数n==50.
『答 案』 B
要点三 样本的百分位数
1.四分位数:第25分位数,第50分位数,第75分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
2.由频率分布直方图求百分位数时,一般采用方程的思想,设出第p百分位数,根据其意义列出方程求解.
『例3』 欧洲联盟委员会和荷兰环境评估署公布了2013年全球主要20个国家和地区的二氧化碳排放总量及人均二氧化碳排放量,结果如下表:
国家和地区 | 排放总量/千吨 | 人均排放量/吨 | 国家和地区 | 排放总量/千吨 | 人均排放量/吨 |
中国 | 10 330 000 | 7.4 | 沙特阿拉伯 | 490 000 | 16.6 |
美国 | 5 300 000 | 16.6 | 巴西 | 480 000 | 2.0 |
欧盟 | 3 740 000 | 7.3 | 英国 | 480 000 | 7.5 |
印度 | 2 070 000 | 1.7 | 墨西哥 | 470 000 | 3.9 |
俄罗斯 | 1 800 000 | 12.6 | 伊朗 | 410 000 | 5.3 |
日本 | 1 360 000 | 10.7 | 澳大利亚 | 390 000 | 16.9 |
德国 | 840 000 | 10.2 | 意大利 | 390 000 | 6.4 |
韩国 | 630 000 | 12.7 | 法国 | 370 000 | 5.7 |
加拿大 | 550 000 | 15.7 | 南非 | 330 000 | 6.2 |
印度尼西亚 | 510 000 | 2.6 | 波兰 | 320 000 | 8.5 |
解 把这20个国家和地区的人均二氧化碳排放量按从小到大的顺序排列:
1.7,2.0,2.6,3.9,5.3,5.7,6.2,6.4,7.3,7.4,7.5,8.5,10.2,10.7,12.6,12.7,15.7,16.6,16.6,16.9.
而20×25%=5,所以这20个数的25%分位数为=5.5.
而20×50%=10,所以50%分位数为=7.45,
而20×75%=15,所以75%分位数为=12.65.
所以这20个国家和地区的人均二氧化碳排放量的四分位数为:
25%分位数 | 50%分位数 | 75%分位数 |
5.5吨 | 7.45吨 | 12.65吨 |
63 38 25 42 56 48 53 39 28 47
则上述数据的50%分位数为________.
『解 析』 把这组数据从小到大排序:25,28,38,39,42,47,48,53,56,63,则10×50%=5.
所以50%分位数为==44.5.
『答 案』 44.5
要点四 用样本的集中趋势、离散程度估计总体
为了从整体上更好地把握总体规律,我们还可以通过样本数据的众数、中位数、平均数估计总体的集中趋势,通过样本数据的方差或标准差估计总体的离散程度.众数就是样本数据中出现次数最多的那个值;中位数就是把样本数据按照由小到大(或由大到小)的顺序排列,如果数据的个数是奇数,则中位数为处于中间位置的数,如果数据的个数是偶数,则中位数为中间两个数据的平均数;平均数就是所有样本数据的平均值,用表示;标准差是反映样本数据分散程度大小的最常用统计量,其计算公式是
s=.有时也用标准差的平方(方差)来代替标准差.
『例4』 根据某市所在地区的收入水平、消费水平等情况,拟将家庭年收入低于1.5万元的家庭确定为“贫困户”,家庭年收入在『6.5,7.5)万元的家庭确定为“小康户”,家庭年收入在『7.5,8.5』万元的家庭确定为“富裕户”,该市扶贫办为了打好精准脱贫攻坚战,在所辖某县的100万户家庭中随机抽取200户家庭,对其2018年的全年收入进行调查,抽查结果的频率分布直方图如图所示.
(1)求这200户家庭的全年收入的样本均值和方差s2;
(2)用样本的频率分布估计总体分布,估计该县100万户家庭中“贫困户”的数量.
解 (1)这200户家庭的全年收入的样本均值=1×0.06+2×0.10+3×0.14+4×0.31+5×0.30+6×0.06+7×0.02+8×0.01=4,
方差s2=(-3)2×0.06+(-2)2×0.10+(-1)2×0.14+02×0.31+12×0.30+22×0.06+32×0.02+42×0.01=1.96.
(2)由频率分布直方图可知,样本中“贫困户”的频率为0.06,所以估计该县100万户家庭中“贫困户”的数量为100×0.06=6(万户).
『训练4』 某市有210名初中生参加数学竞赛预赛,随机调阅了60名学生的答卷,成绩如下表:
成绩 | 1分 | 2分 | 3分 | 4分 | 5分 | 6分 | 7分 | 8分 | 9分 | 10分 |
人数 | 0 | 0 | 0 | 6 | 15 | 21 | 12 | 3 | 3 | 0 |
(2)若规定预赛成绩在7分或7分以上的学生参加复赛,试估计有多少名学生可以进入复赛?
解 (1)=×(4×6+5×15+6×21+7×12+8×3+9×3)=6,
s2=×『6×(4-6)2+15×(5-6)2+21×(6-6)2+12×(7-6)2+3×(8-6)2+3×(9-6)2』=1.5,
所以s≈1.22,
故样本的平均成绩为6分,标准差约为1.22分.
(2)在60名选手中,有12+3+3=18(名)学生预赛成绩在7分或7分以上,所以估计210人中有×210=63(名)学生的预赛成绩在7分或7分以上,故大约有63名学生可以进入复赛.