
摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线性回归模型并对未知量作出预测,为相关决策提供依据和参考。重点介绍了模型中参数的估计和自变量的优化选择及简单应用举例。
关键词:统计学;线性回归;预测模型
一.引言
多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X1,X2,…,Xp之间相依关系,利用现有数据,统计并分析,研究问题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。它不仅能解决一些随机的数学问题,而且还可以通过建立适当的随机模型进而解决一些确定的数学问题,为相关决策提供依据和参考。
目前统计学与其他学科的相互渗透为统计学的应用开辟新的领域。并被广泛的应用在各门学科上,从物理和社会科学到人文科学,甚至被用来工业、农业、商业及部门。而多元线性回归是多元统计分析中的一个重要方法,被应用于众多自然科学领域的研究中。多元线性回归分析作为一种较为科学的方法,可以在获得影响因素的前提下,将定性问题定量化,确定各因素对主体问题的具体影响程度。
二.多元线性回归的基本理论
多元线性回归是多元统计分析中的一个重要方法,被广泛应用于众多自然科学领域的研究中。多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。由于多数的多元非线性回归问题都可以化为多元线性回归问题,所以这里仅讨论多元线性回归。许多非线性回归和多项式回归都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。
2.1 多元线性回归模型的一般形式
设随机变量y与一般变量线性回归模型为
模型中Y为被解释变量(因变量),而是p个可以精确测量并可控制的一般变量,称为解释变量(自变量)。p=1时,(2.1)式即为一元线性回归模型,p大于2时,(2.1)式称为多元线性回归模型。因变量Y由两部分决定:一部分是误差项随机变量,另一部分是p个自变量的线性函数。其中,是p+1个未知参数,称为回归常数,称为偏回归系数,它们决定了因变量Y与自变量的线性关系的具体形式。是随机误差,对随机误差项满足
对一个实际问题,如果n组观察数据(),i=1,2,…,n,则线性回归模型(2.1)式可表示为
即
(2.3)
写成矩阵形式为
其中
, , (2.5)
矩阵是n(p+1)矩阵,称为回归设计矩阵或资料矩阵。
2.2 模型的基本假设
为了便于进行模型参数估计,对线性回归方程(2.3)式进行了如下假设。
1.零均值假定。即
2.正态性假定。即
3.同方差和无自相关假定。即
4.无序列相关假定(随机项与解释变量不相关)。即
5.无多重共线性假定。
解释变量是确定性变量,不是随机变量且满足要求。表明设计矩阵的自变量列之间不相关,样本容量的个数应大于解释变量的个数,是一满秩矩阵。
2.3 多元线性回归方程
在多元线性回归模型基本假设的基础上,对(2.2)式两边取数学期望,可得y的期望函数为
(i=1,2,…,n ) (2.6)
该方程为多元线性方程为理论回归方程。方程中,参数都是未知的,因此就需要利用样本观测值法去估计他们,如果可以得到参数估计值,则得到多元线性样本回归预测方程
(2.7)式是(2.6)的估计方程,其中是对参数的估计。有样本回归方程得到的预测值的估计值与实际观测值之间通常会存在一定的偏差,这一偏差称为残差,记为。
三.多元线性回归统计预测模型的建立
多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响相对重要性以及测定最优多元线性回归方程的偏离度等。
研究在线形相关条件下,两个或两个以上自变量与一个因变量的数量变化关系,称为多元线形回归分析,求得的数学公式称为多元线形回归模型。多元线形回归模型是一元线形回归模型的扩展。
3.1回归建模步骤流程图
3.1 多元回归的预测模型
设因变量y与自变量x1,x2,…,xm-1共有n组实际观测数据(见表3.1)。
表3.1观测数据表
| 变量 | y | ||||
| 1 | y1 | ||||
| 2 | |||||
(3.1)
其中y为因变量x1,x2,…,xm-1为自变量, 是m个未知参数;是均值为零,方差为的不可观测的随机变量,称为误差项,并通常假定。对于n(n≥p)次观测,得到n组数据(样本):
(3.2)
其中 是相互的,且服从分布。
令, ,
则 (3.1) 式用矩阵形式表示为:
(3.3)
3.2 模型参数的估计
回归理论模型确定后,利用收集、整理的样本数据对模型的未知参数给出估计。未知参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。对于不满足模型基本假设的回归问题,人们给出了一些新的方法,如岭回归、主成分回归、偏最小二乘估计等。但是它们都是以普通最小二乘法为基础。但参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等。
设分别是参数的最小二乘估计,则y的观测值可表示为:
(3.4)
其中k=1,2,…,N。是误差的估计值.又令为的估计值,有:
(3.5)
(3.5)式为观测值的回归拟合值,简称回归值或拟合值。相应的,称向量为因变量向量的回归值。
根据最小二乘法应使得全部观测值与回归值的偏差平方和Q达到最小。Q是未知参数向量的非负二次函数,Q反映了在n次观察中总的误差程度,Q越小越好。即:
(3.6)
有最小值。由于口是的非负二次式,最小值一定存在。根据数学分析的极值原理应满足下述方程组:
(3.7)
称为正规方程组.将式代人(3.7)式整理得:
(3.8)
显然正规方程组的系数矩阵是对称矩阵。令
则(3.8)式可以写为矩阵形式的方程或假设系数矩阵A满秩,求解上述矩阵方程得回归系数β的最小二乘法估计为:
(3.9)
即为回归系数β的最小二乘法估计。
3.3 模型检验
当模型的未知参数估计出来后,初步建立了一个回归模型,但是这个模型是否真正揭示了被解释变量和解释变量之间的关系,在根据因变量与多个自变量的实际观测数据建立多元线性回归方程之前,因变量与多个自变量间的线性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程之后,还必须对因变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。
3.3.1 回归方程的拟合优度检验
拟合优度一般用于检验样本回归直线对观测值得拟合度。在一元线性回归方程中,用判定系数R2衡量估计方程对样本对观测值的拟合程度;在多元线性回归方程中,同样也可以。即SST=SSR+SSE,
其中为总离差平方和,为回归平方和,它是反映回归效果的参数,为残差平方和。式中:为第i个样本点()上的回归值。式中:为y的样本平均值。
判定系数R2指因变量y的总变差中能由自由变量所解释的那部分变差的比重,即数学模型为
(3.11)
的值越接近于1,表明回归方程对实际观测值的拟合度效果越好,相反越接近0,拟合效果越差。
3.4.2 回归方程的整体显著性检验
在一元线性回归中,回归系数显著性检验t检验与回归方程显著性检验的F检验是等价的,但是在多元线性回归中,就不等价了。F检验显著是说明对自变量x整体的线性回归效果显著的,但不等于y对于每一个自变量x的效果都显著;反之也不成立。
3.4.3 回归系数的显著性检验
在多元线性回归中,回归方程显著并不意味着每个自变量对因变量y的影响都是显著的,因此需要对每个回归系数进行显著性检验。假设,检验统计量t为
在回归效果差的情况下,根据大小采用后退法依次剔除对应的不显著自变量,用剩余的显著因素进行最后一次回归。
3.5 残差分析
一个估计回归方程可能有较高的判定系数,也可能通过显著性检验,但是并不能说就是一个好模型,因为这些都是建立在模型假设基础上的,如果最初模型假设不真实,就要用残差分析验证。
DW检验的基本思想:如果存在正相关,那么残差的相邻值彼此之间应当比较接近,分子项就会较小,进而DW值也会比较小;如果存在负相关,就相反。检验统计量DW的表达式为
数学上推导出DW取值[0,4],其中t代表了时间,残差是按照时间顺序收集的。
四.多元线性回归统计预测模型的应用
4.1 预测模型计算
参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等。其预测模型的计算步骤如下:
第1步 数据输入。在SPSS的数据编辑窗口中输入表1中的数据,如果是已编辑好的数据,可以直接将数据粘贴到SPSS数据编辑窗口。
第2步 确定分析方法。在“Analyze”菜单“Regression”(回归分析)中选择“Linear”(线性)命令,进入弹出的“Linear Regression”(线性回归)对话框,从对话框左侧的变量列表中点击标记变量y,然后,单击“Dependent”(因变量)框左边的按钮,将变量y添加到因变量框中;同样的方法,将自变量添加到“Independent”(自变量)框中。
(1)设定多元线性回归分析自变量的筛选方法。
(2)设置变量筛选的条件。
(3)确定作图的标志变量
(4)加权最小二乘法。
(5)选择输出项。
(6)分析结果的保存设置
(7)自变量筛选参数及剔除变量的处理设定。
第3步 完成回归分析。完成上述过程后,单击“OK”按钮,即可得到SPSS的多元回归预测结果。
4.2 案例一
为了预测某油区今后的产量变化,通过结合现场实际情况进行了深入分析研究,选取了7个影响产量变化的因素:总油井数x1、油井开井数x2、上年产油量x3、上年产水量x4、上年采油速率x5、上年采出程度x6作为自变量xi(i=1,2,…,6),年产油量作为因变量y,见表4.1所示。
| 年份 | 总井数 | 开井数 | 上年含水 | 上年产油量 | 上年产水 | 上年采油速率 | 上年采出程度 | 产量 |
| 1985 | 744 | 611 | 36.7 | 450.56 | 229.44 | 2.01 | 7.23 | 548.7025 |
| 1986 | 871 | 665 | 35.6 | 548.7025 | 311.5599 | 1.87 | 7.05 | 587.7664 |
| 1987 | 1031 | 779 | 38.4 | 587.76 | 355.2637 | 1.68 | 8.49 | 580.8112 |
| 1988 | 1238 | 1014 | 39.4 | 580.8112 | 378 | 1.77 | 9.61 | 534.0132 |
| 1989 | 1549 | 1249 | 41.8 | 534.0132 | 443.885 | 1.45 | 9.07 | 611.07 |
| 1990 | 1900 | 1541 | 42.33 | 611.07 | 531.55 | 1.53 | 9.54 | 760.01 |
| 1991 | 2326 | 1813 | 42.93 | 760.01 | 644.85 | 1.6 | 9.49 | 900.42 |
| 1992 | 2798 | 2201 | 46.21 | 900.42 | 776.36 | 1.55 | 10.25 | 1001.0043 |
| 1993 | 3450 | 2739 | 45.8 | 1001.0043 | 887.4423 | 1.49 | 9.35 | 1135.651 |
| 1994 | 3936 | 3014 | 47.8 | 1135.651 | 1027.4552 | 1.43 | 9.08 | 1258.3527 |
| 1995 | 41 | 3569 | 49.3 | 1258.3527 | 1173.9625 | 1.31 | 9.31 | 1335.0502 |
| 1996 | 5150 | 3838 | 52.15 | 1335.0502 | 1444.0092 | 1.37 | 10.13 | 1360.2006 |
| 1997 | 5750 | 4437 | 55.46 | 1360.2006 | 1691.8241 | 1.26 | 10.88 | 1370.102 |
| 1998 | 55 | 4794 | 59.83 | 1370.102 | 1925.7223 | 1.18 | 11.54 | 1385.0697 |
| 1999 | 71 | 5348 | 60.87 | 1385.0697 | 2165.2523 | 1.11 | 12.07 | 1390.0886 |
| 2000 | 8411 | 6485 | 63.39 | 1390.0886 | 2306.3785 | 1.11 | 12.96 | 1495.1202 |
| 2001 | 9808 | 7319 | 63.12 | 1495.1202 | 2551.7942 | 1.2 | 13.57 | 1547.1922 |
| 2002 | 10852 | 8113 | .79 | 1547.1922 | 2741.1184 | 1.2 | 14.76 | 1513.8424 |
| 2003 | 12329 | 9193 | 67.45 | 1513.8424 | 3071.0021 | 1.07 | 14.59 | 1495.0469 |
| 2004 | 13260 | 48 | 68.89 | 1495.0469 | 3266.8308 | 1.01 | 14.88 | 1452.0812 |
| 2005 | 13908 | 9390 | 70.12 | 1452.0812 | 3219.8554 | 0.95 | 15.4 | 1430.3474 |
| 2006 | 14697 | 9729 | 71.88 | 1430.3474 | 3524.7929 | 0.88 | 15.82 | 1441.5053 |
| 2007 | 15410 | 10098 | 71.88 | 1441.5053 | 3755.5592 | 0.91 | 16.46 | 1418.8725 |
| 2008 | 15656 | 10573 | 72.95 | 1418.8725 | 3816.6083 | 0.83 | 17.22 | 1376.5585 |
| 2009 | 15873 | 10928 | 72.83 | 1376.5585 | 3694.4416 | 0.83 | 17.74 | 1361.8735 |
注:1984年的产油量为450.56×104t/a
根据图表4.1建立预测模型,即1985~2006年数据用于确定模型参数,余下3组数据作为检验数据以验证模型的可靠性和实用性。
表 4.2 输入移出的变量
| 模型 | 输入的变量 | 移去的变量 | 方法 | |
| 1 | 上年采出程度(%), 上年产油量(104t), 上年采油速率(%), 总井数(口), 上年含水(%), 开井数(口), 上年产水(104t)a | . | 输入 |
表 4.3 模型汇总
| 模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 | Durbin-Watson |
| 1 | .994a | .988 | .982 | 50.4055818 | 1.371 |
表 4.4 方差分析表
| 模型 | 平方和 | df | 均方 | F | Sig. | |
| 1 | 回归 | 2906128.133 | 7 | 415161.162 | 163.403 | .000a |
| 残差 | 35570.117 | 14 | 2540.723 | |||
| 总计 | 2941698.251 | 21 | ||||
方差分析表,模型的设定检验F统计量的值为163.403,显著性水平的值P值几乎为零,说明因变量与自变量的线性关系明显。
表 4.5 回归系数表
| 模型 | 非标准化系数 | 标准系数 | t | Sig. | ||
| B | 标准 误差 | 试用版 | ||||
| 1 | (常量) | -497.348 | 651.118 | -.7 | .458 | |
| 总井数(口) | .014 | .042 | .171 | .327 | .749 | |
| 开井数(口) | .087 | .061 | .742 | 1.436 | .173 | |
| 上年含水(%) | 28.301 | 14.034 | .907 | 2.017 | .063 | |
| 上年产油量(104t) | .858 | .116 | .907 | 7.407 | .000 | |
| 上年产水(104t) | -.492 | .194 | -1.4 | -2.529 | .024 | |
| 上年采油速率(%) | -7.112 | 147.971 | -.006 | -.048 | .962 | |
| 上年采出程度(%) | -43.230 | 22.947 | -.312 | -1.884 | .081 | |
求得,其回归系数分别为:-497.348、0.14、0.87、28.301、0.858、-0.492、-7.112、-43.230。
其统计量为:q =35570、u =2906128、F =163.403、r=0.994。自变量x1~x7的tj计量分别为:0.327、1.436、2.017、7.407、-2.529、-0.048、-1.884。
给出了回归系数表和变量显著性检测的T值,发现变量(上年采油速率)的T值太小,没有达到显著性水平,因此将这个变量剔除。筛选后回归方程为:
再次回归计算,得到回归系数分别为:-525.1694、0.0146、0.0865、28.7433、0.8583、-0.4956、-43.3142。其统计量为:q =35576、u =2906100、F =204.2194、r =0.9939。自变量,的值统计量分别为:0.3855、1.4191、2.2721、3.4601、2.3309、1.7484。
根据得到的各个影响因素的t值统计量再次进行筛选,应剔除自变量(总油井数)。第二次筛选后回归方程为:
回归系数分别为:-486.8500、0.1018、27.9827、0.8394、-0.4630、-44.0693。其统计量为:q =35932、u =2905800、F =258.7794、r =0.9939。自变量的值统计量分别为:2.1695、2.3264、3.6279、2.5104、1.8291。
最终得到的显著自变量是油井开井数、上年含水率、上年产油量、上年产水量、上年采出程度。由此建立的预测模型为:
式中:y为产油量;为油井开井数;为上年含水率;为上年产油量;为上年产水量;为上年采出程度。
。
表 4.6 多元回归预测结果
| 年份 | 实际产油量 (104t/a) | 多元线性回归 | |
| 拟合预测值(104t/a) | 相对误差(%) | ||
| 1997 | 1370.102 | 1395.7 | 1.87 |
| 1998 | 1385.0697 | 1425.2 | 2.90 |
| 1999 | 1390.0886 | 13.0 | 0.08 |
| 2000 | 1495.1202 | 1475.0 | 1.35 |
| 2001 | 1547.1922 | 1500.0 | 3.05 |
| 2002 | 1513.8424 | 1531.1 | 1.14 |
| 2003 | 1495.0469 | 1542.3 | 3.16 |
| 2004 | 1452.0812 | 1438.4 | 0.94 |
| 2005 | 1430.3474 | 1480.6 | 3.51 |
| 2006 | 1441.5053 | 1386.4 | 3.82 |
| 平均相对误差(%) | 3.60 | ||
| 2007 | 1418.8725 | 1298.3 | 8.50 |
| 2008 | 1376.5585 | 1295.8 | 5.87 |
| 2009 | 1361.8735 | 1340.0 | 1.61 |
| 平均相对误差(%) | 5.33 | ||
4.3 案例二
我国民航客运量(万人)受到国民收入(亿元)、消费额(亿元)、铁路客运量(万人)、民航航线里程(万公里)、来华旅游入境人数(万人)这些因素的影响,根据16年的统计数据(见表4.7)。
表 4.7 民航客运量
| 年份顺序 | y | |||||
| 第1年 | 231 | 3010 | 1888 | 81491 | 14.89 | 180.92 |
| 第2年 | 298 | 3350 | 2195 | 86389 | 16 | 420.39 |
| 第3年 | 343 | 3688 | 2531 | 92204 | 19.53 | 570.25 |
| 第4年 | 401 | 3941 | 2799 | 95300 | 21.82 | 776.71 |
| 第5年 | 445 | 4258 | 3054 | 99922 | 23.27 | 792.43 |
| 第6年 | 391 | 4736 | 3358 | 106004 | 22.91 | 947.7 |
| 第7年 | 554 | 5652 | 3905 | 110353 | 26.02 | 1285.2 |
| 第8年 | 744 | 7020 | 4879 | 112110 | 27.72 | 1783.3 |
| 第9年 | 997 | 7859 | 5552 | 108579 | 32.43 | 2282 |
| 第10年 | 1310 | 9313 | 6386 | 112429 | 38.91 | 2690.2 |
| 第11年 | 1442 | 11738 | 8038 | 122645 | 37.38 | 3169.5 |
| 第12年 | 1283 | 13176 | 9005 | 113807 | 47.19 | 2450.1 |
| 第13年 | 1660 | 14384 | 9663 | 95712 | 50.68 | 2746.2 |
| 第14年 | 2178 | 16557 | 10969 | 95081 | 55.91 | 3335.7 |
| 第15年 | 2886 | 20223 | 12985 | 99693 | 83.66 | 3311.5 |
| 第16年 | 3383 | 24882 | 15949 | 105458 | 96.08 | 4152.7 |
表 4.8 模型汇总表
| 模型 | R | R 方 | 调整 R 方 | 标准 估计的误差 | Durbin-Watson |
| 1 | .999a | .998 | .997 | 49.480 | 1.994 |
表 4.9 方差分析表
| 模型 | 平方和 | df | 均方 | F | Sig. | |
| 1 | 回归 | 1.382E7 | 5 | 2763777.779 | 1128.862 | .000a |
| 残差 | 24482.857 | 10 | 2448.286 | |||
| 总计 | 1.384E7 | 15 | ||||
表 4.10系数
| 模型 | 非标准化系数 | 标准系数 | t | Sig. | ||
| B | 标准 误差 | 试用版 | ||||
| 1 | (常量) | 451.155 | 178.094 | 2.533 | .030 | |
| X1 | .354 | .085 | 2.447 | 4.154 | .002 | |
| X2 | -.562 | .125 | -2.485 | -4.480 | .001 | |
| X3 | -.007 | .002 | -.083 | -3.511 | .006 | |
| X4 | 21.578 | 4.029 | .531 | 5.356 | .000 | |
| X5 | .435 | .052 | .5 | 8.443 | .000 | |
表4.10给出了回归方程的非标准化估计系数、标准化估计系数值、系数的统计显著性检验结果以及方差膨胀因子。因为估计方程的常数项和各变量系数对应的p值都小于0.05,因此均具有统计显著性。但是变量x的方差膨胀因子VIF都大于10,因此存在显著的共线性。选取最大的方差膨胀因子的变量为多余变量,依次剔除变量和,最终将、和纳入回归方程,重复运算方差系数、系数检验表。
表 4.11 残差统计量
| 极小值 | 极大值 | 均值 | 标准 偏差 | N | |
| 预测值 | 2.96 | 3417.04 | 1159.13 | 959.823 | 16 |
| 标准 预测值 | -.932 | 2.352 | .000 | 1.000 | 16 |
| 预测值的标准误差 | 19.563 | 38.794 | 29.568 | 6.838 | 16 |
| 调整的预测值 | 293.79 | 3467.38 | 1160.38 | 960.299 | 16 |
| 残差 | -50.234 | 79.844 | .000 | 40.400 | 16 |
| 标准 残差 | -1.015 | 1.614 | .000 | .816 | 16 |
| 已删除的残差 | -87.753 | 140.033 | -1.251 | 76.680 | 16 |
| Cook 的距离 | .001 | .821 | .183 | .219 | 16 |
有以上分析结果可得我国民航客运量的回归模型,根据回归模型可知,客运量的影响因素,固定其他因素,铁路客运量没增加1万人,民航客运量就减少0.01万人;民航历程每增加1万公里,民航客运量增加26.434万人;来华游客每增加1万人,民航客运量增加0.317万人。
五. 结 论
(1)本文具体介绍了多元线性回归模型的建立和应用,并采用SPSS软件对实例进行了分析;
(2)多元线性回归模型能从诸多变量中挑选出显著变量是模型中的可控因素,因此可以通过模型预测达到控制的目的。
(3) 多元线性回归统计预测模型被广泛运用于各学科上。
参考文献
[1] 何晓群等.多元统计分析在考试评价中的应用.国家教育部考试中心重点课程研究报告,2001
[2] 王岩,隋思涟,王爱青.数理统计与MATLAB工程数据分析[M].北京:清华大学出版社,2006.
[3] 张恒喜,郭基联,朱家元,虞健飞.小样本多元数据分析方法及应用[M].西安:西北工业大学出版社,2002.
[4] 吾今培,孙德山.现代数据分析[M].北京:机械工业出版社,2006.
[5] 阎长俊. AR 模型的建模与预测[J]. 沈阳建筑工程学院学报,1997.
Multiple linear regression statistics forecasting model
Liang Fan
(The College of Mathematics and Statistics,Yili Normal University,Yining,Xinjiang, 835000)
Abstract: based on the theory of multivariate statistical analysis, and statistical analysis of data established on the basis of multiple linear regression model and the unknown quantity make predictions, for related decision provides the basis and the reference. Focusing on the parameters in the model and the optimization of the estimates of the independent variable selection and simple examples of application.
Keywords: statistics; Linear regression; Prediction model
