最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

多元线性回归预测模型论文

来源:动视网 责编:小OO 时间:2025-10-01 21:10:33
文档

多元线性回归预测模型论文

多元线性回归统计预测模型摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线性回归模型并对未知量作出预测,为相关决策提供依据和参考。重点介绍了模型中参数的估计和自变量的优化选择及简单应用举例。关键词:统计学;线性回归;预测模型一.引言多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X1,X2,…,Xp之间相依关系,利用现有数据,统计并分析,研究问题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。它不仅能
推荐度:
导读多元线性回归统计预测模型摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线性回归模型并对未知量作出预测,为相关决策提供依据和参考。重点介绍了模型中参数的估计和自变量的优化选择及简单应用举例。关键词:统计学;线性回归;预测模型一.引言多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X1,X2,…,Xp之间相依关系,利用现有数据,统计并分析,研究问题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。它不仅能
多元线性回归统计预测模型

摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线性回归模型并对未知量作出预测,为相关决策提供依据和参考。重点介绍了模型中参数的估计和自变量的优化选择及简单应用举例。

关键词:统计学;线性回归;预测模型

一.引言

多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X1,X2,…,Xp之间相依关系,利用现有数据,统计并分析,研究问题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。它不仅能解决一些随机的数学问题,而且还可以通过建立适当的随机模型进而解决一些确定的数学问题,为相关决策提供依据和参考。

目前统计学与其他学科的相互渗透为统计学的应用开辟新的领域。并被广泛的应用在各门学科上,从物理和社会科学到人文科学,甚至被用来工业、农业、商业及部门。而多元线性回归是多元统计分析中的一个重要方法,被应用于众多自然科学领域的研究中。多元线性回归分析作为一种较为科学的方法,可以在获得影响因素的前提下,将定性问题定量化,确定各因素对主体问题的具体影响程度。

二.多元线性回归的基本理论

多元线性回归是多元统计分析中的一个重要方法,被广泛应用于众多自然科学领域的研究中。多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响的相对重要性以及测定最优多元线性回归方程的偏离度等。由于多数的多元非线性回归问题都可以化为多元线性回归问题,所以这里仅讨论多元线性回归。许多非线性回归和多项式回归都可以化为多元线性回归来解决,因而多元线性回归分析有着广泛的应用。

2.1 多元线性回归模型的一般形式

设随机变量y与一般变量线性回归模型为

模型中Y为被解释变量(因变量),而是p个可以精确测量并可控制的一般变量,称为解释变量(自变量)。p=1时,(2.1)式即为一元线性回归模型,p大于2时,(2.1)式称为多元线性回归模型。因变量Y由两部分决定:一部分是误差项随机变量,另一部分是p个自变量的线性函数。其中,是p+1个未知参数,称为回归常数,称为偏回归系数,它们决定了因变量Y与自变量的线性关系的具体形式。是随机误差,对随机误差项满足

对一个实际问题,如果n组观察数据(),i=1,2,…,n,则线性回归模型(2.1)式可表示为

       (2.3)

写成矩阵形式为

 

其中

, ,      (2.5)

矩阵是n(p+1)矩阵,称为回归设计矩阵或资料矩阵。

2.2 模型的基本假设

为了便于进行模型参数估计,对线性回归方程(2.3)式进行了如下假设。

1.零均值假定。即

2.正态性假定。即

3.同方差和无自相关假定。即

4.无序列相关假定(随机项与解释变量不相关)。即

5.无多重共线性假定。

解释变量是确定性变量,不是随机变量且满足要求。表明设计矩阵的自变量列之间不相关,样本容量的个数应大于解释变量的个数,是一满秩矩阵。

2.3 多元线性回归方程

在多元线性回归模型基本假设的基础上,对(2.2)式两边取数学期望,可得y的期望函数为

 (i=1,2,…,n )     (2.6)

该方程为多元线性方程为理论回归方程。方程中,参数都是未知的,因此就需要利用样本观测值法去估计他们,如果可以得到参数估计值,则得到多元线性样本回归预测方程

(2.7)式是(2.6)的估计方程,其中是对参数的估计。有样本回归方程得到的预测值的估计值与实际观测值之间通常会存在一定的偏差,这一偏差称为残差,记为。

三.多元线性回归统计预测模型的建立

多元线性回归分析的基本任务包括:根据因变量与多个自变量的实际观测值建立因变量对多个自变量的多元线性回归方程;检验、分析各个自变量对因自变量的综合线性影响的显著性;检验、分析各个自变量对因变量的单纯线性影响的显著性,选择仅对因变量有显著线性影响的自变量,建立最优多元线性回归方程;评定各个自变量对因变量影响相对重要性以及测定最优多元线性回归方程的偏离度等。

研究在线形相关条件下,两个或两个以上自变量与一个因变量的数量变化关系,称为多元线形回归分析,求得的数学公式称为多元线形回归模型。多元线形回归模型是一元线形回归模型的扩展。

3.1回归建模步骤流程图

3.1 多元回归的预测模型

设因变量y与自变量x1,x2,…,xm-1共有n组实际观测数据(见表3.1)。

表3.1观测数据表

变量
1y1

2
y是一个可观测的随机变量,它受到m-1个非随机因素x1,x2,…,xm-1和随机因素的影响。若y与x1,x2,…,xm-1有如下线性关系

            (3.1)

其中y为因变量x1,x2,…,xm-1为自变量, 是m个未知参数;是均值为零,方差为的不可观测的随机变量,称为误差项,并通常假定。对于n(n≥p)次观测,得到n组数据(样本):

 (3.2)

其中 是相互的,且服从分布。

  令,  , 

则 (3.1) 式用矩阵形式表示为:

                          (3.3)

3.2 模型参数的估计 

回归理论模型确定后,利用收集、整理的样本数据对模型的未知参数给出估计。未知参数的估计方法最常用的是普通最小二乘法,它是经典的估计方法。对于不满足模型基本假设的回归问题,人们给出了一些新的方法,如岭回归、主成分回归、偏最小二乘估计等。但是它们都是以普通最小二乘法为基础。但参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等。

  设分别是参数的最小二乘估计,则y的观测值可表示为: 

             (3.4)

其中k=1,2,…,N。是误差的估计值.又令为的估计值,有:

 (3.5)

(3.5)式为观测值的回归拟合值,简称回归值或拟合值。相应的,称向量为因变量向量的回归值。

根据最小二乘法应使得全部观测值与回归值的偏差平方和Q达到最小。Q是未知参数向量的非负二次函数,Q反映了在n次观察中总的误差程度,Q越小越好。即:

 (3.6)

有最小值。由于口是的非负二次式,最小值一定存在。根据数学分析的极值原理应满足下述方程组:

             (3.7)

称为正规方程组.将式代人(3.7)式整理得:

(3.8)

显然正规方程组的系数矩阵是对称矩阵。令

      

则(3.8)式可以写为矩阵形式的方程或假设系数矩阵A满秩,求解上述矩阵方程得回归系数β的最小二乘法估计为:

 (3.9)

即为回归系数β的最小二乘法估计。

3.3 模型检验 

当模型的未知参数估计出来后,初步建立了一个回归模型,但是这个模型是否真正揭示了被解释变量和解释变量之间的关系,在根据因变量与多个自变量的实际观测数据建立多元线性回归方程之前,因变量与多个自变量间的线性关系只是一种假设,尽管这种假设常常不是没有根据的,但是在建立了多元线性回归方程之后,还必须对因变量与多个自变量间的线性关系的假设进行显著性检验,也就是进行多元线性回归关系的显著性检验,或者说对多元线性回归方程进行显著性检验。

3.3.1 回归方程的拟合优度检验

拟合优度一般用于检验样本回归直线对观测值得拟合度。在一元线性回归方程中,用判定系数R2衡量估计方程对样本对观测值的拟合程度;在多元线性回归方程中,同样也可以。即SST=SSR+SSE,

其中为总离差平方和,为回归平方和,它是反映回归效果的参数,为残差平方和。式中:为第i个样本点()上的回归值。式中:为y的样本平均值。

判定系数R2指因变量y的总变差中能由自由变量所解释的那部分变差的比重,即数学模型为

                   (3.11)

的值越接近于1,表明回归方程对实际观测值的拟合度效果越好,相反越接近0,拟合效果越差。

3.4.2 回归方程的整体显著性检验

在一元线性回归中,回归系数显著性检验t检验与回归方程显著性检验的F检验是等价的,但是在多元线性回归中,就不等价了。F检验显著是说明对自变量x整体的线性回归效果显著的,但不等于y对于每一个自变量x的效果都显著;反之也不成立。

3.4.3 回归系数的显著性检验

在多元线性回归中,回归方程显著并不意味着每个自变量对因变量y的影响都是显著的,因此需要对每个回归系数进行显著性检验。假设,检验统计量t为

在回归效果差的情况下,根据大小采用后退法依次剔除对应的不显著自变量,用剩余的显著因素进行最后一次回归。

3.5 残差分析

一个估计回归方程可能有较高的判定系数,也可能通过显著性检验,但是并不能说就是一个好模型,因为这些都是建立在模型假设基础上的,如果最初模型假设不真实,就要用残差分析验证。

DW检验的基本思想:如果存在正相关,那么残差的相邻值彼此之间应当比较接近,分子项就会较小,进而DW值也会比较小;如果存在负相关,就相反。检验统计量DW的表达式为

数学上推导出DW取值[0,4],其中t代表了时间,残差是按照时间顺序收集的。

四.多元线性回归统计预测模型的应用

4.1 预测模型计算

参数变量较多时,计算量很大,一般采用计算机软件,如TSP、SPSS、SAS等。其预测模型的计算步骤如下:

第1步  数据输入。在SPSS的数据编辑窗口中输入表1中的数据,如果是已编辑好的数据,可以直接将数据粘贴到SPSS数据编辑窗口。

第2步  确定分析方法。在“Analyze”菜单“Regression”(回归分析)中选择“Linear”(线性)命令,进入弹出的“Linear Regression”(线性回归)对话框,从对话框左侧的变量列表中点击标记变量y,然后,单击“Dependent”(因变量)框左边的按钮,将变量y添加到因变量框中;同样的方法,将自变量添加到“Independent”(自变量)框中。

(1)设定多元线性回归分析自变量的筛选方法。

(2)设置变量筛选的条件。

(3)确定作图的标志变量  

(4)加权最小二乘法。

(5)选择输出项。

(6)分析结果的保存设置

(7)自变量筛选参数及剔除变量的处理设定。

第3步  完成回归分析。完成上述过程后,单击“OK”按钮,即可得到SPSS的多元回归预测结果。

4.2 案例一

为了预测某油区今后的产量变化,通过结合现场实际情况进行了深入分析研究,选取了7个影响产量变化的因素:总油井数x1、油井开井数x2、上年产油量x3、上年产水量x4、上年采油速率x5、上年采出程度x6作为自变量xi(i=1,2,…,6),年产油量作为因变量y,见表4.1所示。

年份总井数开井数上年含水上年产油量上年产水上年采油速率上年采出程度产量
198574461136.7450.56229.442.017.23548.7025
198687166535.6548.7025311.55991.877.05587.7664
1987103177938.4587.76355.26371.688.49580.8112
19881238101439.4580.81123781.779.61534.0132
19891549124941.8534.0132443.8851.459.07611.07
19901900154142.33611.07531.551.539.54760.01
19912326181342.93760.01644.851.69.49900.42
19922798220146.21900.42776.361.5510.251001.0043
19933450273945.81001.0043887.44231.499.351135.651
19943936301447.81135.6511027.45521.439.081258.3527
199541356949.31258.35271173.96251.319.311335.0502
19965150383852.151335.05021444.00921.3710.131360.2006
19975750443755.461360.20061691.82411.2610.881370.102
199855479459.831370.1021925.72231.1811.541385.0697
199971534860.871385.06972165.25231.1112.071390.0886
20008411648563.391390.08862306.37851.1112.961495.1202
20019808731963.121495.12022551.79421.213.571547.1922
2002108528113.791547.19222741.11841.214.761513.8424
200312329919367.451513.84243071.00211.0714.591495.0469
2004132604868.891495.04693266.83081.0114.881452.0812
200513908939070.121452.08123219.85540.9515.41430.3474
200614697972971.881430.34743524.79290.8815.821441.5053
2007154101009871.881441.50533755.55920.9116.461418.8725
2008156561057372.951418.87253816.60830.8317.221376.5585
2009158731092872.831376.55853694.44160.8317.741361.8735
表4.1 某油田年产量影响因素基础数据

注:1984年的产油量为450.56×104t/a

根据图表4.1建立预测模型,即1985~2006年数据用于确定模型参数,余下3组数据作为检验数据以验证模型的可靠性和实用性。

                               表 4.2 输入移出的变量

模型输入的变量移去的变量方法
1上年采出程度(%), 上年产油量(104t), 上年采油速率(%), 总井数(口), 上年含水(%), 开井数(口), 上年产水(104t)a

.输入
从表4.2中我们可以看出,所有7个自变量进入模型,说明我们的解释变量都有显著并且是有解释力的。

表 4.3 模型汇总

模型RR 方

调整 R 方

标准 估计的误差

Durbin-Watson
1.994a

.988.98250.40558181.371
图4.3给出了模型整体拟合效果的概述,模型的拟合优度系数为0.994,反应了因变量与自变量之间具有高度显著的线性关系。

表 4.4 方差分析表

模型平方和df均方FSig.
1回归2906128.1337415161.162163.403.000a

残差35570.117142540.723
总计2941698.25121

方差分析表,模型的设定检验F统计量的值为163.403,显著性水平的值P值几乎为零,说明因变量与自变量的线性关系明显。

表 4.5 回归系数表 

模型非标准化系数标准系数tSig.
B标准 误差

试用版
1(常量)

-497.348651.118-.7.458
总井数(口).014.042.171.327.749
开井数(口).087.061.7421.436.173
上年含水(%)28.30114.034.9072.017.063
上年产油量(104t)

.858.116.9077.407.000
上年产水(104t)

-.492.194-1.4-2.529.024
上年采油速率(%)-7.112147.971-.006-.048.962
上年采出程度(%)-43.23022.947-.312-1.884.081
设多元线性回归方程式为:

求得,其回归系数分别为:-497.348、0.14、0.87、28.301、0.858、-0.492、-7.112、-43.230。

其统计量为:q =35570、u =2906128、F =163.403、r=0.994。自变量x1~x7的tj计量分别为:0.327、1.436、2.017、7.407、-2.529、-0.048、-1.884。

给出了回归系数表和变量显著性检测的T值,发现变量(上年采油速率)的T值太小,没有达到显著性水平,因此将这个变量剔除。筛选后回归方程为:

再次回归计算,得到回归系数分别为:-525.1694、0.0146、0.0865、28.7433、0.8583、-0.4956、-43.3142。其统计量为:q =35576、u =2906100、F =204.2194、r =0.9939。自变量,的值统计量分别为:0.3855、1.4191、2.2721、3.4601、2.3309、1.7484。

根据得到的各个影响因素的t值统计量再次进行筛选,应剔除自变量(总油井数)。第二次筛选后回归方程为:

回归系数分别为:-486.8500、0.1018、27.9827、0.8394、-0.4630、-44.0693。其统计量为:q =35932、u =2905800、F =258.7794、r =0.9939。自变量的值统计量分别为:2.1695、2.3264、3.6279、2.5104、1.8291。

最终得到的显著自变量是油井开井数、上年含水率、上年产油量、上年产水量、上年采出程度。由此建立的预测模型为:

式中:y为产油量;为油井开井数;为上年含水率;为上年产油量;为上年产水量;为上年采出程度。

表 4.6 多元回归预测结果

年份实际产油量

(104t/a)

多元线性回归
拟合预测值(104t/a)

相对误差(%)
19971370.102 1395.71.87
19981385.0697 1425.22.90
19991390.0886 13.00.08
20001495.1202 1475.01.35
20011547.1922 1500.03.05
20021513.8424 1531.11.14
20031495.0469 1542.33.16
20041452.0812 1438.40.94
20051430.3474 1480.63.51
20061441.5053 1386.43.82
平均相对误差(%)3.60
20071418.87251298.38.50
20081376.55851295.85.87
20091361.87351340.01.61
平均相对误差(%)5.33
数据分析得到结果,平均相对误差为5.33%,所以预测得到的预测结果基本上都能满足油藏工程的要求。

4.3 案例二

我国民航客运量(万人)受到国民收入(亿元)、消费额(亿元)、铁路客运量(万人)、民航航线里程(万公里)、来华旅游入境人数(万人)这些因素的影响,根据16年的统计数据(见表4.7)。

表 4.7 民航客运量

年份顺序y
第1年231301018888149114.89180.92
第2年298335021958638916420.39
第3年343368825319220419.53570.25
第4年401394127999530021.82776.71
第5年445425830549992223.27792.43
第6年3914736335810600422.91947.7
第7年5545652390511035326.021285.2
第8年7447020487911211027.721783.3
第9年9977859555210857932.432282
第10年13109313638611242938.912690.2
第11年144211738803812264537.383169.5
第12年128313176900511380747.192450.1
第13年16601438496639571250.682746.2
第14年217816557109699508155.913335.7
第15年288620223129859969383.663311.5
第16年3383248821594910545896.084152.7
通过模型汇总,显示了回归方程的拟合情况。

表 4.8 模型汇总表

模型RR 方

调整 R 方

标准 估计的误差

Durbin-Watson
.999a

.998.99749.4801.994
图4.8可见模型的负相关系数为0.999,判定系数0.998调整后的判定系数为0.997,模型拟合效果较好;DW值为1.994,接近于2,可认为模型不存在自相关。

表 4.9 方差分析表

模型平方和df均方FSig.
1回归1.382E752763777.7791128.862.000a

残差24482.857102448.286
总计1.384E715
给出了参与回归分析的6方差分析结果及检验结果,回归方程的F值为1128.619,p值为0.000,可见方程整体而言是显著的。

表 4.10系数

模型非标准化系数标准系数tSig.
标准 误差

试用版
(常量)

451.155178.0942.533.030
X1.354.0852.4474.154.002
X2-.562.125-2.485-4.480.001
X3-.007.002-.083-3.511.006
X421.5784.029.5315.356.000
X5.435.052.58.443.000

表4.10给出了回归方程的非标准化估计系数、标准化估计系数值、系数的统计显著性检验结果以及方差膨胀因子。因为估计方程的常数项和各变量系数对应的p值都小于0.05,因此均具有统计显著性。但是变量x的方差膨胀因子VIF都大于10,因此存在显著的共线性。选取最大的方差膨胀因子的变量为多余变量,依次剔除变量和,最终将、和纳入回归方程,重复运算方差系数、系数检验表。

表 4.11 残差统计量

极小值极大值均值标准 偏差

N
预测值2.963417.041159.13959.82316
标准 预测值

-.9322.352.0001.00016
预测值的标准误差19.56338.79429.5686.83816
调整的预测值293.793467.381160.38960.29916
残差-50.23479.844.00040.40016
标准 残差

-1.0151.614.000.81616
已删除的残差-87.753140.033-1.25176.68016
Cook 的距离

.001.821.183.21916
最后得出剔除后的残差统计表4.11,可见残差符合基本假设,因此模型设定是有效的。

有以上分析结果可得我国民航客运量的回归模型,根据回归模型可知,客运量的影响因素,固定其他因素,铁路客运量没增加1万人,民航客运量就减少0.01万人;民航历程每增加1万公里,民航客运量增加26.434万人;来华游客每增加1万人,民航客运量增加0.317万人。

五. 结  论

(1)本文具体介绍了多元线性回归模型的建立和应用,并采用SPSS软件对实例进行了分析;

(2)多元线性回归模型能从诸多变量中挑选出显著变量是模型中的可控因素,因此可以通过模型预测达到控制的目的。

(3) 多元线性回归统计预测模型被广泛运用于各学科上。

参考文献

[1] 何晓群等.多元统计分析在考试评价中的应用.国家教育部考试中心重点课程研究报告,2001

[2] 王岩,隋思涟,王爱青.数理统计与MATLAB工程数据分析[M].北京:清华大学出版社,2006.

[3] 张恒喜,郭基联,朱家元,虞健飞.小样本多元数据分析方法及应用[M].西安:西北工业大学出版社,2002.

[4] 吾今培,孙德山.现代数据分析[M].北京:机械工业出版社,2006.

[5] 阎长俊. AR 模型的建模与预测[J]. 沈阳建筑工程学院学报,1997.

Multiple linear regression statistics forecasting model

                                   Liang Fan  

(The College of Mathematics and Statistics,Yili Normal University,Yining,Xinjiang, 835000)

Abstract: based on the theory of multivariate statistical analysis, and statistical analysis of data established on the basis of multiple linear regression model and the unknown quantity make predictions, for related decision provides the basis and the reference. Focusing on the parameters in the model and the optimization of the estimates of the independent variable selection and simple examples of application. 

Keywords: statistics; Linear regression; Prediction model 

文档

多元线性回归预测模型论文

多元线性回归统计预测模型摘要:本文以多元统计分析为理论基础,在对数据进行统计分析的基础上建立多元线性回归模型并对未知量作出预测,为相关决策提供依据和参考。重点介绍了模型中参数的估计和自变量的优化选择及简单应用举例。关键词:统计学;线性回归;预测模型一.引言多元线性回归统计预测模型是以统计学为理论基础建立数学模型,研究一个随机变量Y与两个或两个以上一般变量X1,X2,…,Xp之间相依关系,利用现有数据,统计并分析,研究问题的变化规律,建立多元线性回归的统计预测模型,来预测未来的变化情况。它不仅能
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top