案例一 质量控制中的简单线性回归分析
1、问题的提出
某石油炼厂的催化装置通过高温及催化剂对原料的作用进行反应,生成各种产品,其中液化气用途广泛、易于储存运输,所以,提高液化气收率,降低不凝气体产量,成为提高经济效益的关键问题。
通过因果分析图和排列图的观察,发现回流温度是影响液化气收率的主要原因,因此,只有确定二者之间的相关关系,寻找适当的回流温度,才能达到提高液化气收率的目的。经认真分析仔细研究,确定了在保持原有轻油收率的前提下,液化气收率比去年同期增长1个百分点的目标,即达到12.24%的液化气收率。
2、数据的收集
序号 | 回流温度(℃) | 液化气收率(%) | 序号 | 回流温度(℃) | 液化气收率(%) |
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | 36 39 43 43 39 38 43 44 37 40 34 39 40 41 44 | 13.1 12.8 11.3 11.4 12.3 12.5 11.1 10.8 13.1 11.9 13.6 12.2 12.2 11.8 11.1 | 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 | 42 43 46 44 42 41 45 40 46 47 45 38 39 44 45 | 12.3 11.9 10.9 10.4 11.5 12.5 11.1 11.1 11.1 10.8 10.5 12.1 12.5 11.5 10.9 |
3.方法的确立
设线性回归模型为,估计回归方程为
将数据输入计算机,输出散点图可见,液化气收率y具有随着回流温度x的提高而降低的趋势。因此,建立描述y与x之间关系的模型时,首选直线型是合理的。
从线性回归的计算结果,可以知道回归系数的最小二乘估计值
b0=21.263和b1=-0.229,于是最小二乘直线为
这就表明,回流温度每增加1℃,估计液化气收率将减少0.229%。
(3)残差分析
为了判别简单线性模型的假定是否有效,作出残差图,进行残差分析。
从图中可以看到,残差基本在-0.5—+0.5左右,说明建立回归模型所依赖的假定是恰当的。误差项的估计值s=0.388。
(4)回归模型检验
a.显著性检验
在90%的显著水平下,进行t检验,拒绝域为︱t︱=︱b1/ sb1︱>tα/2=1.7011。
由输出数据可以找到b1和sb1,t=b1/ sb1=-0.229/0.022=-10.313,于是拒绝原假设,说明液化气收率与回流温度之间存在线性关系。
b.拟合度检验
判定系数r2=0.792。这意味着液化气收率的样本变差大约有80%可以由它与回流温度的线性关系来解释。
=-0.
这样,r值为y与x之间存在中高度的负线性关系提供了进一步的证据。
由于n≥30,我们近似确定y的90%置信区间为:
=21.263-0.229x±1.282×0.388 = 21.263-0.229x ± 0.497
4、结果分析
由回归直线图可知,要保持液化气收率在12.24%以上,回流温度必须控制在34℃以下。因为装置工艺卡片要求回流温度在33—40℃之间,为确保液化气质量合格,可以将回流温度控制在33—34℃之间。为此,应当采取各项有效措施,改善外部操作环境,将液化气收率控制在目标值范围内。
案例二:轿车生产与GDP等关系研究
中国的轿车生产是否与GDP、城镇居民人均可支配收入、城镇居民家庭恩格尔系数、私人载客汽车拥有量、公路里程等都有密切关系?如果有关系,它们之间是种什么关系?关系强度如何? (数据见《中国统计年鉴》)
(1) 分析轿车生产量与私人载客汽车拥有量之间的关系:
首先,求的因变量轿车生产量y和自变量私人载客汽车拥有量x1的相关系数r=0.992018,说明两者间存在一定的线性相关关系且正相关程度很强。
然后以轿车生产量为因变量y,私人载客汽车拥有量x1为自变量进行一元线性回归分析,结果如下:
①由回归统计中的R=0.984101看出,所建立的回归模型对样本观测值的拟合程度很好;
②估计出的样本回归函数为:ŷ=1.775687+0.206783 x1,说明私人载客汽车拥有量每增加1万辆,轿车生产量增加2067.83辆;
③由上表中â和βˆ的p值分别是0.709481543和6.60805E-15,显然â的p值大于显著性水平α=0.05,不能拒绝原假设α=0,而βˆ的p值远小于显著性水平α=0.05,拒绝原假设β=0,说明私人载客汽车拥有量对轿车生产量有显著影响。
(2) 分析轿车生产量与城镇居民家庭恩格尔系数之间的关系:
首先,求的因变量轿车生产量y和自变量城镇居民家庭恩格尔系数x2的相关系数r=-0.77499,说明两者间存在一定的线性相关关系但负相关程度一般。
然后以轿车生产量为因变量y,城镇居民家庭恩格尔系数x2为自变量进行一元线性回归分析,结果如下:
由回归统计中的R=0.600608看出,所建立的回归模型对样本观测值的拟合程度一般,综合其相关系数值可知此二者关系不太符合所建立的线性模型,说明二者间没有密切的线性相关关系。
(3) 分析轿车生产量与公路里程之间的关系:
首先,求的因变量轿车生产量y和自变量公路里程x3的相关系数r=0.941214,说明两者间存在一定的线性相关关系且正相关程度较强。
然后以轿车生产量为因变量y,公路里程x3为自变量进行一元线性回归分析,结果如下:
①由回归统计中的R=0.885883看出,所建立的回归模型对样本观测值的拟合程度较好; ②估计出的样本回归函数为:ŷ=-125.156+1.403022 x3,说明公路里程每增加1万公里,轿车生产量增加1.403022万辆;
③由上表中â和βˆ的p值分别是5.E-05和1.82E-08,显然â和βˆ的p值均远小于显著性水平α=0.05,拒绝原假设α=0、β=0,但由于β对两者的影响更为显著,所以可以说明公路里程对轿车生产量有显著影响。
(4) 分析轿车生产量与GDP之间的关系:
首先,求的因变量轿车生产量y和自变量GDP x4的相关系数r=0.939995,说明两者间存在一定的线性相关关系且正相关程度较强。
然后以轿车生产量为因变量y,GDP x4为自变量进行一元线性回归分析,结果如下:
①由回归统计中的R=0.88359看出,所建立的回归模型对样本观测值的拟合程度较好; ②估计出的样本回归函数为:ŷ=-70.7127+0.001829x4,说明GDP每增加1亿元,轿车生产量增加18.29辆;
③由上表中â和βˆ的p值分别是0.001534和2.11E-08,显然â和βˆ的p值均小于显著性水平α=0.05,拒绝原假设α=0、β=0,但由于β对两者的影响更为显著,所以可以说明GDP对轿车生产量有较显著影响。
(5) 分析轿车生产量与城镇居民人均可支配收入x5之间的关系:
首先,求的因变量轿车生产量y和自变量城镇居民人均可支配收入x5的相关系数r=0.917695,说明两者间存在一定的线性相关关系且正相关程度较强。
然后以轿车生产量为因变量y,城镇居民人均可支配收入x5为自变量进行一元线性回归分析,结果如下:
①由回归统计中的R=0.8421看出,所建立的回归模型对样本观测值的拟合程度较好; ②估计出的样本回归函数为:ŷ=-92.9054+0.032928x5,说明城镇居民人均可支配收入每增加1元,轿车生产量增加329.28辆;
③由上表中â和βˆ的p值分别是0.001444和2.12E-07,显然â和βˆ的p值均小于显著性水平α=0.05,拒绝原假设α=0、β=0,但由于β对两者的影响更为显著,所以可以说明城镇居民人均可支配收入对轿车生产量有显著影响。
案例三:子女身高与父母身高的回归分析
1、问题的提出
早在19世纪后期,英国生物学家Galton通过观察1078个家庭中父亲、母亲身高的平均值x和其中一个成年儿子身高y,建立了关于父母身高与子女身高的线性方程: y=33.73+0.516x
从方程可以看出,子女身高有回归平均的倾向。那么,时隔一百多年后的今天,人类的物质生活和精神生活都已发生巨大的变化,父母身高与子女身高之间将呈现出什么样的关系呢?
在现实生活中,我们都知道父母身高对子女身高是有影响的,但父亲与母亲的影响分别有多大?他们对儿子和女儿的影响程度是否相同?能否用定量的形式回答这个问题呢?如果可以利用回归方法,进一步揭示父亲身高、母亲身高与子女身高之间量化关系的秘密,将有助于那些关注自己后代身高的年轻父母们进行早期预测,同时也可为那些未婚青年男女在选择理想配偶时提供科学的参考依据。
2、数据的收集
为了问题的研究,我们要求所调查的家庭满足下列条件:(1)家庭中有一个或多个子女(2)家庭成员身体健康,发育正常,无先天性和遗传性疾病,无残疾(3)子女的年龄均在23岁(含23岁)以上。考虑到调查范围的广泛性,我们随机抽取了机关干部、职员、工人、农民、城市居民、军人、大学生家庭,并特意选择了一所全国招生的院校应届毕业生,他们来自于全国各地,家庭背景相对复杂,这样使得样本更具代表性。
在收回的410份(发放460份)调查表中,符合要求的有290个家庭,其中,有儿子405人,有女儿270人。
3、方法的确定
根据所收集的数据,应用二元回归分析方法,研究父亲身高、母亲身高与儿子或女儿身高的关系。
(1)建立回归方程
设X1为父亲身高,X2为母亲身高,Y为儿子或女儿身高。则父母身高与子女身高的回归模型为: Y=β0+β1X1+β2X2+ε
根据样本数据建立估计二元回归方程:
yˆ=b0+b1x1+b2x2
(2)显著性检验
对回归方程进行F检验,拒绝区域为F﹥Fα(2,n-3);对回归系数进行t检验,拒绝区域为t﹥tα/2(n-3) 。
(3)预测
若某一家庭父亲和母亲身高分别为x10和 x20,则子女身高的点估计为:
yˆ=b0+b1x10+b2x20 区间估计方法已超出大纲要求,在此不要求。
4、结果分析
(1)父母身高对儿子身高的影响
yˆ=53.0+0.368x1+0.349x2 显著性检验:在α=0.01的显著水平下,F=62.714﹥Fα(2,400)=4.68 t1=7.85﹥tα/2(400)=2.6 t2=6.71﹥tα/2(400)=2.6
结果说明回归方程显著,两个偏回归系数显著。因此,所建立回归方程是有意义的,即父母身高与儿子身高有显著的线性关系。
(2)父母身高对女儿身高的影响
yˆ=47.140+0.249x1+0.455x2 显著性检验:在α=0.01的显著水平下,F=46.81﹥Fα(2,300)=4.68 t1=4.92﹥tα/2(300)=2.68 t2=7.61﹥tα/2(300)=2.6
结果说明回归方程显著,回归系数显著,故所建立回归方程有效,即女儿身高与父母身高有显著的线性关系,特别是母亲身高对女儿身高的影响更为重要。
(3)从以上结果可以看出,在某种程度上,父母身高对子女身高有重要影响,且在不同时期,子女身高有回归平均身高的趋势,即个子矮的父母,其子女身高未必低于自己,个子高的父母,其子女身高未必高于自己。下表给出了部分家庭子女身高的预测值,其中,区间估计的把握程度为95%。
表:部分家庭子女身高的预测值
父亲
身高 | 母亲 身高 | 儿子身高 | 女儿身高 | ||||
点估计 | 下限 | 上线 | 点估计 | 下限 | 上线 | ||
160 | 155 | 166.57 | 165.32 | 167.83 | 157.50 | 155.99 | 159.02 |
160 | 160 | 168.32 | 167.16 | 169.48 | 159.78 | 158.43 | 161.13 |
165 | 160 | 170.15 | 169.41 | 170.91 | 161.02 | 160.14 | 161.90 |
165 | 165 | 171.90 | 171.01 | 172.91 | 163.30 | 162.26 | 1.33 |
170 | 160 | 172.00 | 171.53 | 172.46 | 162.27 | 161.74 | 162.79 |
170 | 165 | 173.74 | 173.12 | 174.36 | 1.54 | 163.77 | 165.30 |
175 | 160 | 173.84 | 173.27 | 174.40 | 163.51 | 162.94 | 1.07 |
175 | 165 | 175.58 | 174.93 | 176.22 | 165.78 | 1.98 | 166.59 |
180 | 160 | 175.67 | 174.73 | 176.50 | 1.75 | 163.79 | 165.71 |
180 | 165 | 177.42 | 176.47 | 178.36 | 167.03 | 165.91 | 168.14 |
180 | 170 | 177.41 | 176.47 | 178.36 | 169.30 | 167.76 | 170.83 |