
一、必备秘籍
1.两个变量线性相关
(1)散点图:将样本中个数据点(i=1,2,…,)描在平面直角坐标系中得到的图形.
(2)正相关与负相关
①正相关:散点图中的点散布在从左下角到右上角的区域.
②负相关:散点图中的点散布在从左上角到右下角的区域.
2.回归直线的方程
(1)回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(2)回归方程:回归直线对应的方程叫回归直线的方程,简称回归方程.
(3)回归方程的推导过程:
①假设已经得到两个具有线性相关关系的变量的一组数据,,.
②设所求回归方程为,其中是待定参数.
③由最小二乘法得
其中,是回归方程的斜率,是截距.
二、例题讲解
1.(2021·哈尔滨市呼兰区第一中学校高三模拟预测(文))十三届全国三次会议表决通过了《中华人民共和国民法典》这部法律自年月日起施行,某市相关部门进行法律宣传,某宣传小分队记录了前周每周普及宣传的人数与时间的数据,得到下表:
时间
| 周 | |||||
| 人数 |
(2)利用(1)的回归方程,预测该宣传小分队第7周普及宣传(民法典)的人数.
参考公式及数据:回归方程中斜率和截距的最小二乘估计公式分别为,,.
【答案】(1);(2)预测该宣传小分队第周普及宣传《民法典》的人数为.
【分析】
(1)求出、的值,将表格中的数据代入最小二乘法公式,求出、的值,可得出关于的线性回归方程;
(2)将代入回归直线方程,可得出结果.
【详解】
(1)由题意得,,
,
所以,所以,
所以线性回归方程为;
(2)由(1)知,令,解得,
故预测该宣传小分队第周普及宣传《民法典》的人数为.
2.(2021·合肥市第六中学高三模拟预测(文))树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了树木,某农科所为了研究树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵树木,调查得到树木根部半径(单位:米)与树木高度(单位:米)的相关数据如表所示:
| 0.1 | 0.2 | 0.3 | 0.4 | 0.5 | 0.6 | |
| 1.1 | 1.3 | 1.6 | 1.5 | 2.0 | 2.1 |
(2)对(1)中得到的回归方程进行残差分析,若某树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵树木,估计这棵树木“长势标准”的概率.
参考公式:回归直线方程为,其中,.
【答案】(1);(2)
【分析】
(1)由最小二乘法先求样本点中心,再代入公式求,即可得到答案;
(2)先计算6棵A树木中残差为零的有3棵,占比为,即可得到答案;
【详解】
(1)由,
,
,
,
有,
,
故关于的回归方程为:.
(2)当时,,残差为,
当时,,残差为,
当时,,残差为,
当时,,残差为,
当时,,残差为,
当时,,残差为,
由这6棵A树木中残差为零的有3棵,占比为,
这棵树木“长势标准”的概率为.
| 感悟升华(核心秘籍) | 回归直线方程最重要的是精确的计算,在计算的过程中可分步求解: ①②③④ ⑤代入求解; 特别提醒,计算要精确。 |
1.(2021·湖南师大附中高三月考)今年五月,某医院健康管理中心为了调查成年人体内某种自身免疫力指标,从在本院体检的人群中随机抽取了100人,按其免疫力指标分成如下五组:,其频率分布直方图如图1所示.今年六月,某医药研究所研发了一种疫苗,对提高该免疫力有显著效果.经临床检测,将自身免疫力指标比较低的成年人分为五组,各组分别按不同剂量注射疫苗后,其免疫力指标y与疫苗注射量x个单位具有相关关系,样本数据的散点图如图2所示.
(1)健管中心从自身免疫力指标在内的样本中随机抽取3人调查其饮食习惯,记表示这3人中免疫力指标在内的人数,求的分布列和数学期望;
(2)由于大剂量注射疫苗会对身体产生一定的副作用,医学部门设定:自身免疫力指标较低的成年人注射疫苗后,其免疫力指标不应超过普通成年人群自身免疫力指标平均值的3倍.以健管中心抽取的100人作为普通人群的样本,据此估计疫苗注射量不应超过多少个单位.
附:对于一组样本数据,其回归直线的斜率和截距的最小二乘估计值分别为.
【答案】(1)分布列见解析,;(2)疫苗注射量不应超过80个单位.
【分析】
(1)根据频率分布直方图分别求出自身免疫力指标在内和在内的人数,写出X的可能取值,求出对应概率,即可写出分布列,再根据期望公式即可求得数学期望;
(2)根据最小二乘法求得回归方程,然后求出免疫力指标的平均值,根据题意列出不等式,从而可得答案.
【详解】
解:(1)由直方图知,自身免疫力指标在内的人数为,在内的人数为,
则X的可能取值为1,2,3.
其中.
所以X的分布列为
| X | 1 | 2 | 3 |
| P |
(2)由散点图知,5组样本数据分别为,且x与y具有线性相关关系.
因为,则,,所以回归直线方程为.
由直方图知,免疫力指标的平均值为.
由,得,解得.
据此估计,疫苗注射量不应超过80个单位.
2.(2021·安徽师范大学附属中学(理))根据国际疫情形势以及传染病防控的经验,加快新冠病毒疫苗接种是当前有力的防控手段,我国正在安全、有序加快推进疫苗接种工作,某乡村采取通知公告、微信推送、广播播放、条幅宣传等形式,积极开展疫苗接种社会宣传工作,消除群众疑虑,提高新冠疫苗接种率,让群众充分地认识到了疫苗接种的重要作用,自宣传开始后村干部统计了本村名居民(未接种)的一个样本,天内每天新接种疫苗的情况,如下统计表:
第
| 天 | |||||
| 新接种人数 |
(2)假设全村共计名居民(均未接种过疫苗),用样本估计总体来预测该村居民接种新冠疫苗需要几天?
参考公式:回归方程中斜率和截距的最小二乘估计公式分别为:,.
【答案】(1);(2).
【分析】
(1)根据公式求线性回归方程即可;
(2)根据线性回归方程可设,求出,与比较即可求解.
【详解】
(1),,
则,,
故关于的线性回归方程.
(2)设,数列的前项和为,易知数列是等差数列,
则,
因为,,
所以,
(人),所以预测该村居民接种新冠疫苗需要天.
3.(2021·九龙坡·重庆市育才中学高三月考)随着城市规模的扩大和人们生活水平的日益提高,某市近年机动车保有量逐年递增.根据机动车管理部门的统计数据,以5年为一个研究周期,得到机动车每5年纯增数据情况为:
| 年度周期 | 1995~2000 | 2000~2005 | 2005~2010 | 2010~2015 | 2015~2020 |
| 时间变量 | 1 | 2 | 3 | 4 | 5 |
| 纯增数量(单位:万辆) | 3 | 6 | 9 | 15 | 27 |
(1)求机动车纯增数量(单位:万辆)关于时间变量的回归方程,并预测2025~2030年间该市机动车纯增数量的值;
附:回归直线方程中斜率和截距的最小二乘估计公式分别为:;.
(2)该市交通管理部门为了了解市民对“单双号限行”的赞同情况,随机采访了200名市民,将他们的意见和是否拥有私家车情况进行了统计,得到如下的列联表:
| 赞同限行 | 不赞同限行 | 合计 | |
| 没有私家车 | 85 | 15 | 100 |
| 有私家车 | 75 | 25 | 100 |
| 合计 | 160 | 40 | 200 |
附:,.
| 0.15 | 0.10 | 0.05 | 0.025 | 0.010 | 0.005 | 0.001 | |
| 2.072 | 2.706 | 3.841 | 5.024 | 6.635 | 7.879 | 10.828 |
【分析】
(1)根据最小二乘法求得线性回归方程,再求估计值即可;
(2)根据列联表求得卡方观测值,再对照表即可得解.
【详解】
(1)由
| 年度周期 | 1 | 2 | 3 | 4 | 5 |
| 纯增数量(单位:万辆) | 3 | 6 | 9 | 15 | 27 |
.
.
因为过点,所以,
,所以.
2025~2030年时,,所以,
所以2025~2030年间,机动车纯增数量的值约为34.8万辆.
(2)根据列联表,由得观测值为
,
,
所以没有95%的把握认为“对限行的意见与是否拥有私家车有关”.
4.(2021·贵州贵阳·高三月考(理))据贵州省气候中心报,2021年6月上旬,我省降水量在15.2-170.3mm之间,毕节市局地、遵义市北部、铜仁市局地和黔东南州东南部不足50mm,其余均在50mmm以上,局地超过100mm.若我省某地区2021年端午节前后3天,每一天下雨的概率均为.通过模拟实验的方法来估计该地区这3天中恰好有2天下雨的概率,利用计算机或计算器可以产生0到9之间取整数值的随机数(,且)表示是否下雨:当时表示该地区下雨,当时,表示该地区不下雨.因为是3天,所以每三个随机数作为一组,从随机数表中随机取得20组数如下:
332 714 740 945 593 468 491 272 073 445
992 772 951 431 169 332 435 027 8 719
(1)求出k的值,使得该地区每一天下雨的概率均为;并根据上述20组随机数估计该地区这3天中恰好有2天下雨的概率;
(2)2016年到2020年该地区端午节当天降雨量(单位:mm)如表:
| 时间 | 2016年 | 2017年 | 2018年 | 2019年 | 2020年 |
| 年份 | 1 | 2 | 3 | 4 | 5 |
| 降雨量 | 28 | 27 | 25 | 23 | 22 |
参考公式:,.
【答案】(1)4, ;(2),.
【分析】
(1)由于该地区每一天下雨的概率均为,所以,从而可求出k的值,在所给的20组数据中找出有两天小于等于k的数,从而利用古典概型的概率公式可求出概率,
(2)直接利用所给的数据和公式求出回归直线方程。然后令可预测该地区2022年端午节的降雨量
【详解】
(1)由题意可知,,解得,即表示下雨,表示不下雨.
所给的20组数据中,,,,,,,,共组表示天中恰好有天下雨,
故所求的概率为.
(2)由题中所给的数据可得,,
所以,,
所以回归方程为,当时,.
所以该地区年端午节有降雨的话,降雨量约为.
5.(2021·重庆高三月考)为了研究义务教育阶段学生的数学核心素养与抽象能力指标分、推理能力指标分、建模能力指标分的相关性,其中,,,并将它们各自量化为一级、二级、三级3个等级,再用综合指标的值评定学生的数学核心素养,若,则数学核心素养为一级若,则数学核心素养为二级若,则数学核心素养为三级,为了了解重庆市1年级至9年级在校学生的数学核心素养,调查人员随机抽取了该地的五个年级,访问了每个年级的2个学生,统计得到这10个学生的如下数据:
| 年级 | 2 | 4 | 5 | 6 | 8 |
| 数学核心素养分 | 29,31 | 38,42 | 47,53 | 56, | 69,71 |
| 数学核心素养平均分分 | 30 | 40 | 50 | 60 | 70 |
(2)若,之间具有线性相关关系,试估计重庆市9年级的学生数学核心素养平均分为多少
(3)在这10名学生中任取三人,其中数学核心素养等级是一级的学生人数记为,求随机变量的分布列和数学期望.
附:①参考数据:,
②求线性回归方程的系数公式,
【答案】(1)作图见解析;x,y之间具有线性相关关系;(2)78分;(3)分布列见解析;期望为
【分析】
(1)根据表中数据作图并根据散点图判断即可;
(2)根据公式计算回归方程,并估计;
(3)素养为一级的学生是8年级的两名同学,非一级的学生为余下8人,进而根据超几何分布求解即可.
【详解】
解:(1)散点图如图所示:
由图可以看出这些点都在一条直线的附近,
∴x,y之间具有线性相关关系
(2),,,,
,
∴线性回归方程为,
∴当时,,
∴估计该地9年级的学生数学核心素养平均分为78分.
(3)素养为一级的学生是8年级的两名同学,非一级的学生为余下8人,
的所有可能取值为0,1,2,
,,
∴随机变量X的分布列为:
| 0 | 1 | 2 | |
6.(2021·沙坪坝·重庆南开中学高三月考)近年来,学生职业生涯规划课程逐渐进入课堂,考生选择大学就读专业时不再盲目扎堆热门专业,报考专业分布更加广泛,报考之前较冷门专业的人数也逐年上升.下表是某高校专业近五年来在某省录取平均分与当年该大学的最低提档线对照表:
| 年份 | 2017 | 2018 | 2019 | 2020 | 2021 |
| 年份代码() | |||||
| 该校最低提档分数线 | |||||
| 专业录取平均分 | |||||
| 专业录取平均分与提档线之差() |
(2)据以往数据可知,该大学专业每年录取分数服从正态分布,其中为当年该大学专业录取的平均分. 假设2022年该大学最低提档线为分.
①利用(1)的结果预测2022年专业录取平均分;
②若某同学2022年高考考了分,该大学专业在该省共录取100人,录取成绩前五名的学生可以获得一等奖学金,请问该同学能否获得该奖学金?请说明理由.
参考公式:,.
参考数据:,,.
【答案】(1);(2)①分;②能,理由见解析.
【分析】
(1)根据题中公式求出各数据,进而求出,,即可得出答案;
(2)①时,带入回归方程,求得专业录取平均分与提档线之差,即可预测2022年专业录取平均分;
②根据正态分布,求出,即可求得获得一等奖学金的人数,即可得出答案.
【详解】
解:(1), ,
,,
,,
所以,
所以关于的线性回归方程为.
(2)①时,,∴,
故2022年专业录取平均分为分.
②,,,
∴,
∵,∴该同学能获得一等奖学金.
7.(2021·全国(理))某药厂为了了解某新药的销售情况,将今年2至6月份的销售额整理得到如下图表:
| 月份 | 2 | 3 | 4 | 5 | 6 |
| 销售额(万元) | 19 | 25 | 35 | 37 | 42 |
(2)根据所求线性回归方程预测该药厂今年第三季度(7,8,9月份)这种新药的销售总额.
(参考公式:,)
【答案】(1);(2)1.4万元.
【分析】
(1)先求出,然后根据公式求得回归方程的系数得回归方程;
(2)分别令代入回归方程求得第三季度各月的预估销售额,相加得预估销售总额.
【详解】
(1)由题意得:,,
,
则,
.
故每月的销售额关于月份的线性回归方程为.
(2)因为每月的销售额关于月份的线性回归方程为,
所以当时,;
当时,;
当时,,
则该药企今年第三季度这种新药的销售总额预计为万元.
8.(2021·眉山市彭山区第一中学(文))为助力湖北新冠疫情后的经济复苏,某电商平台为某工厂的产品开设直播带货专场.为了对该产品进行合理定价,用不同的单价在平台试销,得到如下数据:
单价
| (元/件) | 8 | 8.2 | 8.4 | 8.6 | 8.8 | 9 |
| 销量(万件) | 90 | 84 | 83 | 80 | 75 | 68 |
(2)若该产品成本是7元/件,假设该产品全部卖出,预测把单价定为多少时,工厂获得最大利润?
(参考公式:回归方程,其中,)
【答案】(1);(2)该产品的单价定为9.75元.
【分析】
(1)利用已知的数据先求出,再求,,然后利用公式求出,再求出,从而可得到关于的线性回归方程;
(2)设工厂获得的利润为万元,结合(1)可得,化简后利用二次函数的性质可求得答案
【详解】
解:(1),
,
,
,
∴.
∴,
∴回归直线方程为.
(2)设工厂获得的利润为万元,则
,
∴该产品的单价定为9.75元时,工厂获得利润最大,最大利润为151.25万元.
9.(2021·四川内江·高三其他模拟(文))为了选拔培养有志于服务国家重大战略需求且综合素质优秀或基础学科拔尖的学生,教育部开展了招生改革工作——强基计划.现对某高中学校学生对强基课程学习的情况进行调查,在参加数学和物理的强基计划课程学习的学生中,随机抽取了名学生.
(1)在某次数学强基课程的测试中,这名学生成绩的统计数据如茎叶图所示,其中某男生的成绩被污损(为整数),求女生的平均分数超过男生的平均分数的概率.
| 男生 | 女生 | |||||
| 数学成绩 | |||||
| 物理成绩 |
【答案】(1);(2)
【分析】
(1)由题计算女生的平均分数,设缺失的数据为,则男生的平均数为,进而解得,再根据古典概型求解即可得答案;
(2)根据回归方程公式得物理成绩与数学成绩的回归直线方程为,进而预测即可.
【详解】
解:(1)由题知女生的平均分数,
设缺失的数据为,则男生的平均数为,
若女生的平均分数超过男生的平均分数,则
解得:
由于污损处的数据是,满足的有
所以女生的平均分数超过男生的平均分数的概率为;
(2),,
,
,
所以,物理成绩与数学成绩的回归直线方程为,
当时,,
估计第次测试他的物理成绩大约为分.
10.(2021·全国高三模拟预测(文))发展清洁能源,是改善能源结构、保障能源安全、推进生态文明建设的重要任务.十三五以来,我国加快调整能源结构,减少煤炭消费、稳定油气供应、大幅增加清洁能源比重,风电、光伏等可再生能源发电效率不断提高.据资料整理统计我国从2015年到2019年的年光伏发电量如表:
| 年份 | 2015 | 2016 | 2017 | 2018 | 2019 |
| 编号 | 1 | 2 | 3 | 4 | 5 |
| 年光伏发电量(亿千瓦时) | 395 | 665 | 1178 | 1775 | 2243 |
(1)请用相关系数说明是否可用线性回归模型拟合年光伏发电量与的关系;
(2)建立年光伏发电量关于的线性回归方程,并预测2021年年光伏发电量(结果保留整数).
参考公式:相关系数,回归方程中斜率和截距的最小二乘估计公式分别为, ,
【答案】(1)可用线性回归模型进行拟合;(2)回归方程为,亿千瓦时
【分析】
(1)首先求出,再根据所给数据求出相关系数,即可判断;
(2)利用公式求出,,即可得出结论.
【详解】
解:(1)因为,
所以相关系数
所以与之间具有较强的线性相关关系,可用线性回归模型进行拟合;
(2)
所以
所以回归方程为,
因为2021年所对应的年份编号为,
当时,
故预计2021年年光伏发电量为亿千瓦时;
11.(2021·全国高三其他模拟(文))实施新规后,某商场2020年1月份至10月份的收入情况如表.
| 月份 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 |
| 收入(万元) | 10 | 12 | 15 | 13 | 16 | 17 | 15 | 16 | 16 | 20 |
(1)是否可用线性回归模型拟合与的关系?请用相关系数加以说明;(当时,那么变量,有较强的线性相关关系)
(2)建立关于的回归方程(结果保留1位小数),并预测该商场12月份的收入情况.(结果保留整数)
附:,,.
【答案】(1)与有较强的线性相关关系,可用线性回归模型拟合,说明答案见解析;(2),预测该商场12月份的收入为20万元.
【分析】
(1)由题中数据及公式计算相关系数,即可作出判断;
(2)由题中数据及(1)中结果计算出,,即可得出关于的回归方程,再把代入即可求解.
【详解】
(1)由题中数据得,,,
于是得,又,
从而,,
所以与有较强的线性相关关系,可用线性回归模型拟合;
(2)由(1)知,而,,
从而得,,
所以关于的线性回归方程为,当时,,
从而预测该商场12月份的收入为20万元.
