
实验序号:B0901152-5 实验项目名称:相关与回归分析
| 学 号 | 姓 名 | 专业、班 | ||||
| 实验地点 | 文波机房 | 指导教师 | 杨超 | 时间 | ||
| 一、实验目的及要求 实验目的: (1)掌握相关分析的主要内容和方法; (2)掌握回归分析的主要方法和步骤。 实验要求: (1)了解双变量的相关分析过程、偏相关分析过程; (2)掌握线性回归过程、曲线配合过程、二项逻辑回归分析过程、概率回归过程以及非线性回归分析过程等。 (3)对各种回归输出结果作出正确的解释说明,进一步了解回归分析的基本步骤,明确各项检验的目的。 二、实验设备(环境)及要求 微型计算机,SPSS、EViews等统计分析软件 三、实验内容与数据来源 1. 现有某省1996~2011年全社会固定资产投资总额INV和GDP两个指标的年度数据,见下表。试分析全社会固定资产投资总额和GDP的相互关系,并建立全社会固定资产投资总额和GDP之间的线性回归方程。 某省全社会固定资产投资和GDP年度数据 年份 | GDP(亿元) | INV(亿元) | 年份 | GDP(亿元) | INV(亿元) | |
| 1996 | 2004 | 523 | ||||
| 1997 | 2005 | |||||
| 1998 | 2006 | 2993 | ||||
| 1999 | 2007 | |||||
| 2000 | 2008 | |||||
| 2001 | 2009 | |||||
| 2002 | 2010 | 3983 | ||||
| 2003 | 2011 | 1348 | ||||
某地区2000年至2011年城镇居民家庭人均收入和城镇储蓄
| 年份 | 城镇人均收入 X(元) | 城镇储蓄 Y(亿元) | 年份 | 城镇人均收入 X(元) | 城镇储蓄 Y(亿元) |
| 2000 | 2006 | ||||
| 2001 | 2007 | ||||
| 2002 | 2008 | ||||
| 2003 | 2009 | ||||
| 2004 | 2010 | ||||
| 2005 | 2011 |
3.一家大型商业银行在多个地区设有分行,为弄清楚不良贷款形成的原因,抽取了该银行所属的25家分行2002年的有关业务数据,如下表:
(1)试建立不良贷款y与贷款余额x1、累计应收贷款x2、贷款项目个数x3和固定资产投资额x4的线性回归方程,说明回归方程式和各回归系数在水平上是否显著,并解释各回归系数的含义;
(2)检验模型中的多重共性线,并用逐步筛选变量的方法改进上述方程。
| 分行编号 | 不良贷款(亿元) | 各项贷款余额(亿元) | 本年累计应收贷款(亿元) | 贷款项目个数(个) | 本年固定资产投资额(亿元) |
| 1 | 5 | ||||
| 2 | 16 | ||||
| 3 | 17 | ||||
| 4 | 10 | ||||
| 5 | 19 | ||||
| 6 | 1 | ||||
| 7 | 17 | ||||
| 8 | 18 | ||||
| 9 | 10 | ||||
| 10 | 14 | ||||
| 11 | 11 | ||||
| 12 | 23 | ||||
| 13 | 14 | ||||
| 14 | 26 | ||||
| 15 | 34 | ||||
| 16 | 15 | ||||
| 17 | 2 | ||||
| 18 | 11 | ||||
| 19 | 4 | ||||
| 20 | 28 | ||||
| 21 | 32 | ||||
| 22 | 10 | ||||
| 23 | 14 | ||||
| 24 | 16 | ||||
| 25 | 10 |
问题一:
【操作步骤】
1.录入数据。将文件数据复制到excel文件,调整为三纵列后,复制粘贴到SPSS软件中的数据视图中。切换到变量视图,对变量名称、数据类型设置后,如图1所示:
图1数据视图
2.选择“分析”→“相关”→“双变量”命令,在“双变量相关”对话框的左侧列表框中,同时选中“GDP”和“INV”并单击中间的向右箭头,使之进入“变量”列表框。
图2 双变量相关对话框
3.选择相关系数。在“双变量相关”对话框内“相关系数”选项组中选择Pearson,此处为系统默认值。
4.设定显著性检验的类型。在“显著性检验”选项组中,我们选择“双侧检验”单选按钮,此处亦为系统默认值。
5.选择是否标记显著性相关。此处选择默认值,即“标记显著性相关”复选框。
6.选择相关性统计量输出和缺失值的处理方法。单击“双变量相关”对话框中的“选项”按钮,在“统计量”选项组中首先选中“均值和标准差”,然后选中“叉积偏差和标准差”,输出各对变量的交叉积以及协方差阵。在“缺失值”选项组中选中“按对排除个案”。如图3所示:
图3 双变量相关性
7.设置完毕,单击确定完成相关性分析的操作步骤。
8.选择“分析”→“回归”→“线性”命令,在“线性回归”对话框的左侧列表中,选中“GDP”并单击使之进入“因变量”列表框,选中“INV”使之进入“自变量”列表框。如图4所示:
图4 线性回归
其他设置采用系统默认值。单击“确定”完成所有设置,等待输出结果。
【结果分析】
1.描述性统计量表
从表1中可以看出参与相关分析的两个变量的样本数据都是16,GDP的均值是,标准差是;INV的均值是,标准差是.
表1 描述性统计量表
2.相关分析结果表
如表2所示,GDP和INV的相关系数是,显著性水平小于,因此小于.所以GDP和INV的相关关系为正向,且相关性极强。
表2 相关分析结果表
3.模型拟合情况
如表3所示,模型的调整R方为,说明模型的解释能力非常强。
表3 模型汇总表
4.回归方程的系数以及系数的检验结果
如表4所示,回归方程的系数是各个变量的回归方程中的系数值,sig值表示回归系数的显著性,越小越显著。一般将其与作比较,如果小于,即为显著。从表中可以看出,GDP和INV的相关系数为,p值小于,说明系数显著。
表4 系数表
综上,模型为GDP=+*INV。
问题二:
【操作步骤】
1.录入数据。将word中的数据复制到excel,并将数据调整为三纵列,再复制粘贴到SPSS的数据视图中。如图5所示:
图5 数据视图
2.选择“分析”→“回归”→“曲线估计”命令,在“曲线估计”对话框的左侧列表框中,选中收入并单击右箭头使之进入“因变量”列表框,然后在“自变量”选项组中选中“变量”,并选中储蓄,单击使之进入该列表框。
3.选择所要使用的曲线类型。在“曲线估计”对话框中的“模型”选项组中,选中“线性”、“对数”、“立方”复选框。
4.选中“在等式中包含常量”和“根据模型绘图”复选框。其他设置采取系统默认值,如图6所示:
图6 曲线估计图
其他设置保持默认值,单击“确定”按钮完成设置,等待结果输出。
【结果分析】
1.模型情况
表5是对模型情况的概述。可以看出三次曲线模型的R方最高,为.
表5 模型汇总和参数估计值
2.拟合曲线图形
表6是三条曲线的拟合情况,图中的圆圈表示实际值,可以发现三次曲线的拟合效果是最好的。
表6 阴性率
3.根据拟合效果,我们选用了三次曲线模型。由表可以得出,模型的表达式为:GDP=+*NVA+*NVA^*NVA^3.
问题三:
【操作步骤】
1.录入数据。打开SPSS软件,将数据复制粘贴到SPSS数据视图窗格中,并到变量视图中完成相关设置。如图7:
图7 数据视图
2.选择进行多元线性回归分析的因变量给以及自变量。在“线性回归”对话框的左侧列表框中,选中y并单击第一个向右箭头使之进入“因变量”列表框,然后同时选中x1,x2,x3,x4,并单击第二个向右箭头使之进入“自变量”列表框。如图8:
图8 线性回归
3.其他设置采用系统默认值。单击“确定”按钮完成设置,等待结果输出。
再进行多重共线性回归分析。
4.选择进行多重线性回归分析的因变量给以及自变量。在“线性回归”对话框的左侧列表框中,选中y并单击第一个向右箭头使之进入“因变量”列表框,然后同时选中x1,x2,x3,x4,并单击第二个向右箭头使之进入“自变量”列表框,最后在“自变量”下方的“方法”下拉列表框中选择“逐步”法进行回归。如图:
图9 线性回归2
5.其他设置采用系统默认值。单击“确定”按钮完成设置,等待结果输出。
【结果分析】
1.模型拟合情况表
表7给出了模型的拟合情况。从表中可以看出,R方为,模型的拟合效果较好。
表7 模型汇总
2.方差分析表
表8给出了模型的方差分析结果。可以发现P值为,模型非常显著。
表8 方差分析表
3. 回归方程的系数以及系数的检验结果
表9给出了模型的自变量系数,根据p值,变量x2、x3、x4不显著,线性回归模型表达式为:
Y=+++表9 系数及系数检验结果
4.多重共线性模型拟合情况表
表10给出了随着变量的进入依次形成的2个模型的拟合情况。可以发现2个模型的调整R方在递增,模型拟合效果较好。
表10 模型汇总
5.方差分析表
表11给出了随着变量的进入依次形成的2个模型的方差分析结果。可以发现P值都为,模型非常显著。
表11 方差分析表
6.回归方程的系数以及系数的检验结果
表12给出了随着变量的进入依次形成的2个模型的自变量系数。可以发现第二个模型的各个变量都是非常显著的。
表12 系数及系数的检验结果
根据结果分析,最终模型的表达式为:
Y=+五、分析与讨论
本次实验主要为相关与回归分析问题研究。相关分析和回归分析是研究多个变量之间关系的常用方法。相关分析是不考虑变量之间的因果关系而只研究分析变量之间的相关关系的一种统计分析方法,包括简单相关分析、偏相关分析等;回归分析则是研究分析某一变量受其他变量影响的分析方法,它以被影响变量为因变量,以影响变量为自变量,研究因变量与自变量之间的因果关系,包括简单线性回归、多重线性回归等。
本实验主要探讨了相关分析、简单线性回归、多重线性回归以及曲线回归分析的内容。简单相关分析是最简单最常用的一种呢相关分析方法,可以研究变量间的线性相关程度并用适当的统计指标表示出来。简单线性回归只涉及一个自变量,主要用来处理一个因变量与一个自变量之间的线性关系,建立变量之间的线性模型并根据模型做评价和预测。多重线性回归分析是最常用的一种回归分析方法,分析设计多个变量,用来处理一个因变量与多个自变量之间的线性关系,建立变量之间的线性模型并根据模型作评价和预测。曲线回归分析则用于解决一般先行回归分析无法刻画的变量之间的因果关系。曲线回归分析适用于模型只有一个自变量且可以简化为线性形式的情形。其基本过程是将因变量或者自变量进行变量转换,然后对新变量进行直线回归分析,最后将新变量还原为原变量,得出变量之间的关系。
| 这部分内容还涉及到系数检验的判断分析,也是最具有实际应用价值的内容之一。学生当深入学习,并拓展到飞线性回归分析、logit模型部分内容的学习,加强自己对不同案例不同数据类型的分析能力。 | ||||||
| 六、教师评语
签名:杨超 | 成绩 | |||||
