
(2015-2019年,14套)
一、小题(16题,统计7,概率9)
(一)统计图表获取信息
1.(2015全国2卷理科3)根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图,以下结论不正确的是( )
A.逐年比较,2008年减少二氧化硫排放量的效果最显著
B.2007年我国治理二氧化硫排放显现成效
C.2006年以来我国二氧化硫年排放量呈减少趋势
D.2006年以来我国二氧化硫年排放量与年份正相关
【解析】由柱形图得,从2006年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年份负相关.选D.
2.(2017全国3卷理科3)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图,根据该折线图,下列结论错误的是( )
A.月接待游客量逐月增加
B.年接待游客量逐年增加
C.各年的月接待游客量高峰期大致在7,8月份
D.各年1月至6月的月接待游客量相对7月至12月,波动性更小,变化比较平稳
【解析】由题图可知,2014年8月到9月的月接待游客量在减少,则A选项错误,选A.
3.(2016全国3卷理科3)某旅游城市为向游客介绍本地的气温情况,绘制了一年中月平均最高气温和平均最低气温的雷达图.图中点表示十月的平均最高气温约为,点表示四月的平均最低气温约为.下面叙述不正确的是( )
A.各月的平均最低气温都在以上
B.七月的平均温差比一月的平均温差大
C.三月和十一月的平均最高气温基本相同
D.平均气温高于的月份有5个
4.(2018全国1卷理科3)某地区经过一年的新农村建设,农村的经济收入增加了一倍.实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例.得到如下饼图:
则下面结论中不正确的是( )
A. 新农村建设后,种植收入减少
B. 新农村建设后,其他收入增加了一倍以上
C. 新农村建设后,养殖收入增加了一倍
D. 新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半
【解析】设新农村建设前的收入为M,而新农村建设后的收入为2M,则新农村建设前种植收入为0.6M,而新农村建设后的种植收入为0.74M,所以种植收入增加了,所以A项不正确;
新农村建设前其他收入我0.04M,新农村建设后其他收入为0.1M,故增加了一倍以上,所以B项正确;
新农村建设前,养殖收入为0.3M,新农村建设后为0.6M,所以增加了一倍,所以C项正确;
新农村建设后,养殖收入与第三产业收入的综合占经济收入的,所以超过了经济收入的一半,所以D正确;选A.
5.(2019全国3卷理科3)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( )
A. B. C. D.
【解析】由题意得,阅读过《西游记》的学生人数为90-80+60=70,则其与该校学生人数之比为70÷100=0.7.故选C.
6.(2019全国2卷理科5)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( )
A. 中位数 B. 平均数 C. 方差 D. 极差
【解析】设9位评委评分按从小到大排列为.
则①原始中位数为,去掉最低分,最高分,后剩余,
中位数仍为,A正确.
②原始平均数,后来平均数
平均数受极端值影响较大,与不一定相同,B不正确
③
由②易知,C不正确.
④原极差,后来极差显然极差变小,D不正确.
7.(2019全国2卷理科13)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为___________.
【解析】由题意得,经停该高铁站的列车正点数约为
,其中高铁个数为10+20+10=40,所以该站所有高铁平均正点率约为.
【点评】统计小题主要考查由统计图表获取信息,利用样本估计总体,特别是由平率分布直方图如何估计总数、中位数、平均数,以容易题为主。要求学生了解每一个统计量的计算公式及意义,渗透了数据处理和数算素养.
(二)古典概型概率问题
1.(2019全国1卷理科6)我国古代典籍《周易》用“卦”描述万物的变化.每一“重卦”由从下到上排列的6个爻组成,爻分为阳爻“——”和阴爻“— —”,如图就是一重卦.在所有重卦中随机取一重卦,则该重卦恰有3个阳爻的概率是( )
A. B. C. D.
【解析】由题知,每一爻有2中情况,一重卦的6爻有情况,其中6爻中恰有3个阳爻情况有,所以该重卦恰有3个阳爻的概率为=,故选A.
2.(2018全国2卷理科8)我国数学家陈景润在哥德猜想的研究中取得了世界领先的成果.哥德猜想是“每个大于2的偶数可以表示为两个素数的和”,如.在不超过30的素数中,随机选取两个不同的数,其和等于30的概率是( )
A. B. C. D.
选C,解:不超过30的素数有2,3,5,7,11,13,17,19,23,29,共10个,随机选取两个不同的数,共有种方法,因为,所以随机选取两个不同的数,其和等于30的有3种方法,故概率为,选C.
3.(2019全国1卷理科15)甲、乙两队进行篮球决赛,采取七场四胜制(当一队赢得四场胜利时,该队获胜,决赛结束).根据前期比赛成绩,甲队的主客场安排依次为“主主客客主客主”.设甲队主场取胜的概率为0.6,客场取胜的概率为0.5,且各场比赛结果相互,则甲队以4∶1获胜的概率是____________.
【解析】前四场中有一场客场输,第五场赢时,甲队以获胜的概率是前四场中有一场主场输,第五场赢时,甲队以获胜的概率是综上所述,甲队以获胜的概率是
【点评】古典概型问题,要弄清楚基本事件总数和事件A包含的基本事件个数,常用排列组合计算,要弄清完成一件事情分几类,每类分几步,解题思路:
| 解题思路及步骤 | 注意事项 |
| 求基本事件总数m | 每个基本事件要求等可能,若是条件概率问题,在有条件则基本事件总数相对减少 |
| 求事件A包含基本事件个数n | 确定A包含基本事件个数时要不重不漏 |
| 代入公式求概率 | ,事件A已经发生的条件下在事件B发生概率 |
1.(2017全国1卷理科2)如图所示,正方形内的图形来自中国古代的太极图,正方形内切圆中的黑色部分和白色部分关于正方形的中心成中心对称. 在正方形内随机取一点,则此点取自黑色部分的概率是( ).
A. B.
C. D.
选B,【解析】设正方形的边长为,则圆的半径为,则正方形的面积为,圆的面积为,图中黑色部分的面积为,则此点取自黑色部分的概率为.
2.(2016全国1卷理科4)某公司的班车在7:30,8:00,8:30发车,小明在7:50至8:30之间到达发车站乘坐班车,且到达发车站的时刻是随机的,则他等车时间不超过10分钟的概率是 ( )
A. B. C. D.
【解析】选B.如图所示,画出时间轴:
小明到达的时间会随机地落在图中线段AB中,而当他到达时间落在线段AC或DB时,才能保证他等车的时间不超过10分钟,根据几何概型,所求概率P==.
3.(2016全国2卷理科10)从区间[0,1]随机抽取2n个数x1,x2,…,xn,y1,y2,…,yn,构成n个数对(x1,y1),(x2,y2),…,(xn,yn),其中两数的平方和小于1的数对共有m个,则用随机模拟的方法得到的圆周率π的近似值为 ( )
A. B. C. D.
选C.【解析】由题意得:(xi,yi)(i=1,2,…,n)在如图所示的正方形中,而平方和小于1的点均在如图所示的阴影中,由几何概型概率计算公式知,所以π=.
【点评】对于几何概型问题,关键要分清是有1个、2个或3个变量,对应的转化为长度、面积或体积的比,解题思路:
| 解题思路及步骤 | 注意事项 |
| 求试验全部结果所构成区域长度(或面积或体积) | 明确表示实验结果的是一个变量、两个变量还是三个变量,它们分别用长度(或角度)、面积和体积来表示 |
| 求构成事件A的区域长度(或面积或体积) | 确定构成事件A的区域长度(或面积或体积) |
| 代入公式求概率 |
1.(2015全国1卷理科4)投篮测试中,每人投3次,至少投中2次才能通过测试.已知某同学每次投篮投中的概率为0.6,且各次投篮是否投中相互,则该同学通过测试的概率为 ( )
A.0.8 B.0.432 C.0.36 D.0.312
选A.【解析】根据重复试验公式得,该同学通过测试的概率为0.62×0.4+0.63=0.8.
2.(2017全国2卷理科13)一批产品的二等品率为,从这批产品中每次随机取一件,有放回地抽取次,表示抽到的二等品件数,则 .
【解析】有放回的抽取,是一个二项分布模型,其中,,
则.
3.(2018全国3卷理科8). 某群体中的每位成员使用移动支付的概率都为,各成员的支付方式相互,设为该群体的10位成员中使用移动支付的人数,,,则
A. 0.7 B. 0.6 C. 0.4 D. 0.3
选B,【解析】判断出为二项分布,利用公式进行计算即可。
或,
,可知.
【点评】这类题要根据二项分布的定义判断随机变量是否是二项分布,用二项分布的期望、方差公式可以减少运算量。若非二项分布随机变量与是二项分布的随机变量是一次函数关系,可以用期望性质快速计算。
二、解答题(14题,离散6,连续2,统计1,线性相关3,性检验2)
(一)离散型随机变量分布列
1.(2018全国1卷理科20)某工厂的某种产品成箱包装,每箱200件,每一箱产品在交付用户之前要对产品作检验,如检验出不合格品,则更换为合格品.检验时,先从这箱产品中任取20件作检验,再根据检验结果决定是否对余下的所有产品作检验,设每件产品为不合格品的概率都为,且各件产品是否为不合格品相互.
(1)记20件产品中恰有2件不合格品的概率为,求的最大值点.
(2)现对一箱产品检验了20件,结果恰有2件不合格品,以(1)中确定的作为的值.已知每件产品的检验费用为2元,若有不合格品进入用户手中,则工厂要对每件不合格品支付25元的赔偿费用.
(i)若不对该箱余下的产品作检验,这一箱产品的检验费用与赔偿费用的和记为,求;
(ii)以检验费用与赔偿费用和的期望值为决策依据,是否该对这箱余下的所有产品作检验?
【解析】(1)20件产品中恰有2件不合格品的概率为.因此
.令,得.当时,;当时,.所以的最大值点为.
(2)由(1)知,.
(i)令表示余下的180件产品中的不合格品件数,依题意知,,即.所以.
(ii)如果对余下的产品作检验,则这一箱产品所需要的检验费为400元.由于,故应该对余下的产品作检验.
2.(2016全国1卷理科19)某公司计划购买2台机器,该种机器使用三年后即被淘汰.机器有一易损零件,在购进机器时,可以额外购买这种零件作为备件,每个200元.在机器使用期间,如果备件不足再购买,则每个500元.现需决策在购买机器时应同时购买几个易损零件,为此搜集并整理了100台这种机器在三年使用期内更换的易损零件数,得下面柱状图:
以这100台机器更换的易损零件数的频率代替1台机器更换的易损零件数发生的概率,记X表示2台机器三年内共需更换的易损零件数,n表示购买2台机器的同时购买的易损零件数.
(1)求X的分布列.
(2)若要求P(X≤n)≥0.5,确定n的最小值.
(3)以购买易损零件所需费用的期望值为决策依据,在n=19与n=20之中选其一,应选用哪个?
【解析】(1)每台机器更换的易损零件数为8,9,10,11,
记事件Ai为第一台机器3年内换掉i+7个零件(i=1,2,3,4)
记事件Bi为第二台机器3年内换掉i+7个零件(i=1,2,3,4)
由题知P(A1)=P(A3)=P(A4)=P(B1)=P(B3)=P(B4)=0.2,P(A2)=P(B2)=0.4.
设2台机器共需更换的易损零件数的随机变量为X,则X的可能的取值为16,17,18,19,20,21,22,
P(X=16)=P(A1)P(B1)=0.2×0.2=0.04,
P(X=17)=P(A1)P(B2)+P(A2)P(B1)=0.2×0.4+0.4×0.2=0.16,
P(X=18)=P(A1)P(B3)+P(A2)P(B2)+P(A3)P(B1)=0.2×0.2+0.4×0.4+0.2×0.2=0.24,
P(X=19)=P(A1)P(B4)+P(A2)P(B3)+P(A3)P(B2)+P(A4)P(B1)=0.2×0.2+0.4×0.2+0.2×0.4+0.2×0.2=0.24,
P(X=20)=P(A2)P(B4)+P(A3)P(B3)+P(A4)P(B2)=0.4×0.2+0.2×0.2+0.2×0.4=0.2,
P(X=21)=P(A3)P(B4)+P(A4)P(B3)=0.2×0.2+0.2×0.2=0.08,
P(X=22)=P(A4)P(B4)=0.2×0.2=0.04.
所以X的分布列为
| X | 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| P | 0.04 | 0.16 | 0.24 | 0.24 | 0.2 | 0.08 | 0.04 |
则n的最小值为19.
(3)购买零件所需费用含两部分,一部分为购买机器时购买零件的费用,另一部分为备件不足时额外购买的费用,
当n=19时,费用的期望为19×200+500×0.2+1000×0.08+1500×0.04=4040,
当n=20时,费用的期望为20×200+500×0.08+1000×0.04=4080.
所以应选用n=19.
3.(2019全国2卷理科18)11分制乒乓球比赛,每赢一球得1分,当某局打成10:10平后,每球交换发球权,先多得2分的一方获胜,该局比赛结束.甲、乙两位同学进行单打比赛,假设甲发球时甲得分的概率为0.5,乙发球时甲得分的概率为0.4,各球的结果相互.在某局双方10:10平后,甲先发球,两人又打了X个球该局比赛结束.
(1)求P(X=2);
(2)求事件“X=4且甲获胜”的概率.
【解析】(1)X=2就是10:10平后,两人又打了2个球该局比赛结束,则这2个球均由甲得分,或者均由乙得分.因此P(X=2)=0.5×0.4+(1–0.5)×(1–04)=05.
(2)X=4且甲获胜,就是10:10平后,两人又打了4个球该局比赛结束,且这4个球的得分情况为:前两球是甲、乙各得1分,后两球均为甲得分.
因此所求概率为:[0.5×(1–0.4)+(1–0.5)×0.4]×0.5×0.4=0.1.
4.(2015全国2卷理科18)某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:
A地区:62 73 81 92 95 85 74 53 76
78 86 95 66 97 78 88 82 76
B地区:73 83 62 51 91 46 53 73 82
93 48 65 81 74 56 54 76 65 79
(1)根据两组数据完成两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,得出结论即可).
(2)根据用户满意度评分,将用户的满意度从低到高分为三个等级:
| 满意度评分 | 低于70分 | 70分到分 | 不低于90分 |
| 满意度等级 | 不满意 | 满意 | 非常满意 |
【解析】(1)两地区用户满意度评分的茎叶图如图.
通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.
(2)记CA1表示事件:“A地区用户的满意度等级为满意或非常满意”;
CA2表示事件:“A地区用户的满意度等级为非常满意”;
CB1表示事件:“B地区用户的满意度等级为不满意”;
CB2表示事件:“B地区用户的满意度等级为满意”;
则CA1与CB1相互,CA2与CB2相互,CB1与CB2互斥,C=CB1CA1∪CB2CA2.
P(C)=P(CB1CA1∪CB2CA2)=P(CB1CA1)+P(CB2CA2)=P(CB1)P(CA1)+P(CB2)P(CA2),
由所给数据得CA1,CA2,CB1,CB2的频率分别为,,,,
故, , ,.
所以
5.(2016全国2卷理科18)某险种的基本保费为a(单位:元),继续购买该险种的投保人称为续保人,续保人本年度的保费与其上年度出险次数的关联如下:
| 上年度出险次数 | 0 | 1 | 2 | 3 | 4 | ≥5 |
| 保 费 | 0.85a | a | 1.25a | 1.5a | 1.75a | 2a |
| 一年内出险次数 | 0 | 1 | 2 | 3 | 4 | ≥5 |
| 概 率 | 0.30 | 0.15 | 0.20 | 0.20 | 0.10 | 0.05 |
(2)若一续保人本年度的保费高于基本保费,求其保费比基本保费高出60%的概率.
(3)求续保人本年度的平均保费与基本保费的比值.
【解析】(1)设续保人本年度的保费高于基本保费为事件A,
P(A)=1-P()=1-(0.30+0.15)=0.55.
(2)设续保人保费比基本保费高出60%为事件B,P(B|A)=.
(3)设本年度所交保费为随机变量X.
| X | 0.85a | a | 1.25a | 1.5a | 1.75a | 2a |
| P | 0.30 | 0.15 | 0.20 | 0.20 | 0.10 | 0.05 |
=0.255a+0.15a+0.25a+0.3a+0.175a+0.1a=1.23a,
所以平均保费与基本保费比值为1.23.
6.(2107全国3卷理科18)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为瓶;如果最高气温位于区间,需求量为瓶;如果最高气温低于20,需求量为瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:
| 最高气温 | ||||||
| 天数 | 2 | 16 | 36 | 25 | 7 | 4 |
以最高气温位于各区间的频率代替最高气温位于该区间的概率.
(1)求六月份这种酸奶一天的需求量(单位:瓶)的分布列;
(2)设六月份一天销售这种酸奶的利润为(单位:元),当六月份这种酸奶一天的进货量(单位:瓶)为多少时,的数学期望达到最大值?
【解析】(1)易知需求量可取,
;;.
则分布列为:
当时: ,
此时,当时取到.
当时,
此时.
当时,易知一定小于的情况.
综上所述当时,取到最大值为.
7.(2019全国1卷理科21)为了治疗某种疾病,研制了甲、乙两种新药,希望知道哪种新药更有效,为此进行动物试验.试验方案如下:每一轮选取两只白鼠对药效进行对比试验.对于两只白鼠,随机选一只施以甲药,另一只施以乙药.一轮的治疗结果得出后,再安排下一轮试验.当其中一种药治愈的白鼠比另一种药治愈的白鼠多4只时,就停止试验,并认为治愈只数多的药更有效.为了方便描述问题,约定:对于每轮试验,若施以甲药的白鼠治愈且施以乙药的白鼠未治愈则甲药得1分,乙药得分;若施以乙药的白鼠治愈且施以甲药的白鼠未治愈则乙药得1分,甲药得分;若都治愈或都未治愈则两种药均得0分.甲、乙两种药的治愈率分别记为α和β,一轮试验中甲药的得分记为X.
(1)求的分布列;
(2)若甲药、乙药在试验开始时都赋予4分,表示“甲药的累计得分为时,最终认为甲药比乙药更有效”的概率,则,, ,其中,,.假设,.
(i)证明: 为等比数列;
(ii)求,并根据的值解释这种试验方案的合理性.
【解析】(1)由题意可知所有可能的取值为:,,
;;
则的分布列如下:
,,
(i)
即
整理可得:
是以为首项,为公比的等比数列
(ii)由(i)知:
,,……,
作和可得:
表示最终认为甲药更有效的.由计算结果可以看出,在甲药治愈率为0.5,乙药治愈率为0.8时,认为甲药更有效的概率为,此时得出错误结论的概率非常小,说明这种实验方案合理.
【点评】近两年考查离散型随机变量分布列变化很大,对学生的能力要求比较高,出题者比较喜欢用这题来考查学生的综合能力,17年3卷与分段函数最值结合;18年1卷与导数结合并放在20题,难度增大;19年1卷与数列结合并放在21题,难度进一步加大。在备考中难以把握方向,因此,除了扎实的基础,别无他法。比较基础题型有:
1.类似超几何分布的离散型随机变量分布列问题(古典概型求概率)
| 解题思路及步骤 | 注意事项 |
| 写出随机变量可能取值 | 明确随机变量取每一个值的意义 |
| 求出随机变量取每个值的概率 | “从M个不同元素中不放回抽取(或同时抽取)n个元素”类型概率问题,用古典概型求概率 |
| 写出分布列 | 检验所有概率之和是否等于1 |
| 求数学期望 | 若服从超级和分布,则可带入公式快速求出 |
| 解题思路及步骤 | 注意事项 |
| 写出随机变量可能取值 | |
| 求出随机变量取每个值的概率 | 当有“把频率当成概率或用频率估计概率”条件时,“从M个不同元素中抽出n个元素”类型概率问题就变成相互事件的问题 |
| 写出分布列 | 检验所有概率之和是否等于1 |
| 求数学期望 | 若服从二项分布,则可带入公式快速求出 |
| 解题思路及步骤 | 注意事项 |
| 写出随机变量可能取值 | 这类题重点考查是否理解随机变量取每一个值的意义 |
| 求出随机变量取每个值的概率 | 注意对随机变量所取的值表示多种的情况,多数情况由频率估计估计概率 |
| 写出分布列 | 检验所有概率之和是否等于1 |
| 求数学期望 | 通过数学期望进行决策 |
1.(2107全国1卷理科19)为了监控某种零件的一条生产线的生产过程,检验员每天从该生产线上随机抽取个零件,并测量其尺寸(单位:).根据长期生产经验,可以认为这条生产线正常状态下生产的零件的尺寸服从正态分布.
(1)假设生产状态正常,记表示一天内抽取的个零件中其尺寸在之外的零件数,求及的数学期望;
(2)一天内抽检零件中,如果出现了尺寸在之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查.
(ⅰ)试说明上述监控生产过程方法的合理性;
(ⅱ)下面是检验员在一天内抽取的个零件的尺寸:
| 9.95 | 10.12 | 9.96 | 9.96 | 10.01 | 9.92 | 9.98 | 10.04 |
| 10.26 | 9.91 | 10.13 | 10.02 | 9.22 | 10.04 | 10.05 | 9.95 |
用样本平均数作为的估计值,用样本标准差作为的估计值,利用估计值判断是否需对当天的生产过程进行检查?剔除之外的数据,用剩下的数据估计和(精确到).
附:若随机变量服从正态分布,则,,.
【解析】(1)由题可知尺寸落在之内的概率为,落在之外的概率为.,
,
由题可知,所以.
(2)(i)尺寸落在之外的概率为,由正态分布知尺寸落在之外为小概率事件,因此上述监控生产过程的方法合理.
(ii),,
,因为,所以需对当天的生产过程检查. 因此剔除,剔除数据之后:.
所以.
【点评】对于正态分布,关键是抓住其总体密度曲线关于总体均值对称性来求概率.
(三)样本估计总体
1.(2019全国3卷理科17)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成两组,每组100只,其中组小鼠给服甲离子溶液,组小鼠给服乙离子溶液.每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:
记为事件:“乙离子残留在体内的百分比不低于”,根据直方图得到的估计值为.
(1)求乙离子残留百分比直方图中的值;
(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代
【解析】(1)由题得,解得,
由,解得.
(2)由甲离子的直方图可得,甲离子残留百分比的平均值为,
乙离子残留百分比的平均值为
【点评】本题考查频率分布直方图和平均数,属于基础题.
(四)线性相关
1.(2018全国2卷理科18)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为=–30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=–30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.
2.(2016全国3卷理科18)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.
注:年份代码1-7分别对应年份2008-2014.
(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明.
(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.
附注:参考数据: yi=9.32, tiyi=40.17, =0.55,≈2.6.
参考公式:相关系数r=
回归方程中斜率和截距的最小二乘估计公式分别为:
,
【解析】(1)由折线图中的数据和附注中参考数据得
因为y与t的相关系数近似为0.99,说明y与t的线性相关程度相当高,从而可以用线性回归模型拟合y与t的关系.
(2)由=1.331及(1)得≈0.103,
≈1.331-0.103×4≈0.92.所以,y关于t的回归方程为=0.92+0.10t.
将2016年对应的t=9代入回归方程得: =0.92+0.10×9=1.82.
所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.
3.(2015全国1卷理科19)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响,对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.
| (xi-)2 | (wi-)2 | (xi-)(yi-) | (wi-)(yi-) | |||
| 46.6 | 563 | 6.8 | 2.8 | 1.6 | 1 469 | 108.8 |
(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程.
(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题:
①年宣传费x=49时,年销售量及年利润的预报值是多少?
②年宣传费x为何值时,年利润的预报值最大?
附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归线v=α+βu的斜率和截距的最小二乘估计分别为:=,=-.
【解析】(1)由散点图的变化趋势可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.
(2)令w=,先建立y关于w的线性回归方程.由于
=-=563-68×6.8=100.6,所以y关于w的线性回归方程为=100.6+68w,因此y关于x的回归方程为=100.6+68.
(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,年利润z的预报值=576.6×0.2-49=66.32.
②根据(2)的结果知,年利润z的预报值,=0.2(100.6+68)-x=-x+13.6+20.12.所以当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.
【点评】这类题要求学生理解最小二乘法得出的线性回归方程斜率公式、截距公式的意义、算法及关系,会用换元思想将非线性规划问题问题转化为线性回问题。解题思路:
1.最小二乘法求两个线性变量的回归方程问题
| 解题思路及步骤 | 注意事项 |
| 画散点图 | 若样本点大致分布在一条直线附近,则可判断两个变量具有线性相关,若题设已知两个变量线性相关,可省略该步骤 |
| 求和 | |
| 列表计算 | 根据样本数据特点合理选用公式计算,若各数据与平均数差的有效数学字比原数据少,则选用作差再相乘的公式 |
| 求,写出回归方程 |
| 解题思路及步骤 | 注意事项 |
| 画散点图 | 根据样本点分布情况确定两个变量适用的函数模型,若题设已知两个变量的函数模型,可省略该步骤 |
| 换元 | 通过换元,使得换元后的两个变量线性相关(一次函数关系) |
| 求线性回归程 | 用最小二乘法求线性回归方程 |
| 还原 | 还原为原来两个变量的回归方程 |
1.(全国2卷理科18)淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了个网箱,测量各箱水产品的产量(单位:)的频率分布直方图如图所示.
(1)设两种养殖方法的箱产量相互,记表示事件:旧养殖法的箱产量低于, 新养殖法的箱产量不低于,估计的概率;
(2)填写下面列联表,并根据列联表判断是否有的把握认为箱产量与养殖方法有关;
| 箱产量 | 箱产量 | |
| 旧养殖法 | ||
| 新养殖法 |
附:
| 0.050 | 0.010 | 0.001 | |
| 3.841 | 6.635 | 10.828 |
解析:(1)记:“旧养殖法的箱产量低于” 为事件,“新养殖法的箱产量不低于”为事件,由题图并以频率作为概率得
,
,.
(2)
| 箱产量 | 箱产量 | |
| 旧养殖法 | 62 | 38 |
| 新养殖法 | 34 | 66 |
(3),,,,,所以中位数为.
2.(2018全国3卷理科18)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:
(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由;
(2)求40名工人完成生产任务所需时间的中位数,并将完成生产任务所需时间超过和不超过的工人数填入下面的列联表:
| 超过 | 不超过 | |
| 第一种生产方式 | ||
| 第二种生产方式 |
附:,
(i)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.
(ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.
(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟,因此第二种生产方式的效率更高.
(iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方式的效率更高.以上给出了4种理由,考生答出其中任意一种或其他合理理由均可得分.
(2)由茎叶图知.
列联表如下:
| 超过 | 不超过 | |
| 第一种生产方式 | 15 | 5 |
| 第二种生产方式 | 5 | 15 |
【点评】这类题要求学生理解两个分类变量是否有关判断原理,解题思路:
| 解题思路及步骤 | 注意事项 |
| 2×2列联表 | 注意是用样本数据而不是总体数据 |
| 计算卡方 | 注意运算策略,处理分子的交叉相乘时应先提公因式,平方数写成乘积形式再约分,最后除法运算保留三位小数 |
| 比较经验值 | 要根据题设中的百分比找对应的经验值做比较 |
| 下结论 | 根据比较结果,把结论完整的表述出来,不能只是说有关或无关 |
