
一、简答
1.什么是多重共线性?多重共线性对参数估计的影响是什么?
自变量之间存在的线性关系x1=B1x2+B2x3,y=
使得参数估计结果产生严重偏差
2.多重共线性的判别方法有哪些?
相关系数;方差平方系数VIF=1/1-R^2
3. 保留主成份的两种方法是什么?
累积贡献率大于80%;特征值大于1原则
4.主成分与因子分析的区别是什么?
前者解释能力弱,经济管理含义不强;后者反之。但是其目的一样(消除共线性和降低维度)
5.如何判定主成分与因子分析的有效性?
KMO大于0.7可以,小于0.5就不行了;巴特莱特球型检验的0假设(变量不相关)要拒绝就可以进行
6.何时进行聚类分析?何时进行判别分析?请举例说明。
7.说明K-means聚类的基本原理。与系统聚类方法相比,K-means聚类的优点是什么?
一次一次聚类(流程图),优点是适合于大样本,能快速聚类
8.说明Bayes判别法的基本原理。
先验概率和密度函数计算后验概率,后验概率大的选出来作为分类标准。
9.SPSS实现的Bayes判别法的前提假设是什么?什么检验能够验证这一前提假设?
两组协方差相等,变量混合原则,BOX-M检验,方差分析检验
10.简要说明Fisher判别法的基本原理。Fisher判别法与距离判别法的关系是什么?
将数据降低维度,然后用距离判别法进行分类新加入的数据类型。而距离判别法直接是距离进行分类
11.写出主成分回归过程。
见PPT
12.主成分回归与逐步回归的目的是什么?两种回归结果是一样的吗?为什么?(详细叙述)
目的是消除共线性,两种回归结果不一样,主成分回归会包含所有原始解释变量,逐步回归只包含一部分解释性强的变量
13.表现数据的手段有哪些,各自有什么特点?(详细叙述)
图形和表格,参数表达法,模型表达法
(均值,标准差,方差,相关系数,协方差)
14.回归模型前提假设是什么,含义是什么?
误差一部兴隆服从均值是0,方差是1的正态分布
15.写出最小二乘解矩阵表达式及其分布。
16.写出R2以及adj-R2的计算公式。
17.回归模型误差的无偏估计如何计算?
18.为什么要进行回归诊断?
检验前提假设是否成立
21.在多元回归中,如何识别自变量对因变量影响的强弱?
通过看标准系数,把所有x,y系数标准化,再回归后得到的
22.如果回归模型用来预测,对R2和有什么要求?如果回归模型用来影响因素分析,对R2和有什么要求?
R^2应该比较大,标准估计误差小;后者则是R^2可以稍微小点,标准估计误差要小
23.在哪些情况下引进虚拟变量?
定性,异常状态,结构发生改变
24.在回归模型中如何引进结虚拟变量?
Dx
25.建立进口额与GDP和D的回归模型,模型从91年起发生什么变化 ?建立进口额与GDP和DX的回归模型,模型发生什么变化 ?建立进口额与GDP、 D和DX的回归模型,模型发生什么变化 ?
二.计算题
1.填空:由1991年我国分地区家庭年人均食品支出(Y)和年人均收入(X1)及粮食单价(X2)数据可得:
回归系数表
| Model | Unstandardized Coefficients | Standardized Coefficients | t | Sig. | |
| B | Std. Error | Beta(强度) | |||
| (Constant) | -87.378 | 62.452 | -1.399 | .173 | |
| 人均收入 | .354 | .039 | .773 | 9.081 | .000 | 
| 粮食单价 | 206.538 | 75.212 | .234 | 2.746 | .011 | 
(1)写出回归方程式。Y=-87.378+0.354X1+206.536X2
(2)当价格固定时,收入每上升1元,食品支出上升 0.354 元;当人均收入固定时,价格每上升1元,食品支出上升 206.538 元。
(3)那个因素对食品支出的影响最强?其强度是多少?
人均收入影响最强,强度为0.773
2. 利用全国31个省市自治区的财政收入(Y)对GDP(X1)和第一产业就业比重(X2)的回归结果见表1和表2。
表1 方差分析表
| 变差来源 | df | SS | MS | F | 
| 回归 | 713159.7 | |||
| 残差 | — | |||
| 总计 | 30 | 1695042 | — | — | 
| Coefficients | 标准误差 | t Stat | |
| Intercept | 217.4658 | 77.74365 | 2.797216 | 
| X1 | 0.068795 | 0.0061 | 9.983572 | 
| X2 | -4.01567 | 1.272796 | -3.155 | 
表1 方差分析表
| 变差来源 | df | SS | MS | F | 
| 回归 | 2 | 1426319 | 713159.7 | 74.30876 | 
| 残差 | 28 | 268723 | 9597.25 | — | 
| 总计 | 30 | 1695042 | — | — | 
在第一产业就业比重不变的情况下,GDP增加一个单位,财政收入增加0.068795个单位;第一产业就业比重增加一个单位,财政收入下降4.01567个单位。
(3)回归方程是否显著,其零假设是什么?各回归系数是否显著,其零假设是什么?为什么?(F=3.34 ,)F检验(只对解释变量假设)H0:B1=B2=0;T检验(依次假设,包括常量)H0:B0=0,H0:B1=0,H0:B2=0
(4)计算决定系数和调整的决定系数,并解释它的实际意义。(R^2与调整后的差距应该不大)
意义:决定系数表明回归方程解释了因变量变异的84.15%的信息。
3. 某公司的出口额资料见表4,利用Excel作的散点图见图1。
表4 公司历年出口额(万元)
| 年份 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 2005 2006 2007 2008 | 
| 出口额 | 4.2 | 5.7 | 8.3 | 11.5 | 16 | 22.4 | 31 | 44.6 60.1 84.3 118.6 163.9 | 
图1 散点图
(1)根据散点图确定拟合的曲线函数。二次或者指数(写出函数模型)
(2)由给定的数据计算模型中的参数。
(3)由估计的模型预测该公司2009年出口额。
4. 为了研究月收入与性别、年龄层、学历和企业规模之间的关系,收集到数据15个,数据结构见表5。
(1)对定性变量进行虚拟化处理;
(2)建立虚拟处理后的数据表;
(3)建立月收入与性别、年龄层、学历和企业规模之间的回归关系;
(4)若一个人是男性、40多岁、大学毕业且在中型企业工作,他的月收入可能是多少?
表5 原始数据
| 月收入 | 性别 | 年龄层 | 学历 | 企业规模 | 
| 2500 | 女 | 40多 | 初中 | 小企业 | 
| 2600 | 男 | 30多 | 初中 | 小企业 | 
| 2800 | 女 | 40多 | 高中 | 小企业 | 
| 3000 | 女 | 40多 | 高中 | 小企业 | 
| 3100 | 男 | 30多 | 初中 | 中企业 | 
| 3200 | 男 | 30多 | 高中 | 小企业 | 
| 3400 | 女 | 30多 | 大学 | 中企业 | 
| 3600 | 男 | 30多 | 高中 | 中企业 | 
| 3900 | 女 | 30多 | 大学 | 大企业 | 
| 4000 | 男 | 30多 | 高中 | 中企业 | 
| 4300 | 男 | 30多 | 大学 | 小企业 | 
| 4600 | 男 | 30多 | 大学 | 中企业 | 
| 5200 | 男 | 40多 | 初中 | 大企业 | 
| 5400 | 女 | 40多 | 大学 | 大企业 | 
| 5500 | 男 | 40多 | 高中 | 大企业 | 
(1)画出数据的散点图;
(2)设计结构虚拟变量并写出多元线性回归模型;
(3)估计模型中的参数,并说明模型的显著性;
表6 支出与GNP
| 年份 | 支出(Y) | GNP(X) | 
| 1991 | 459 | 5773 | 
| 1992 | 383 | 5701 | 
| 1993 | 421 | 5907 | 
| 1994 | 476 | 6318 | 
| 1995 | 538 | 6232 | 
| 1996 | 603 | 69 | 
| 1997 | 584 | 6358 | 
| 1998 | 671 | 6390 | 
| 1999 | 1428 | 7084 | 
| 2000 | 1574 | 6769 | 
表10 描述统计
表11 共同度
表12 主成分的贡献率
表13 主成分系数表
表14 原始数据与两个主成分得分
表15 聚类的冰柱图
(1)前两个主成分的贡献率是多少?累计贡献率是多少?
(2)写出第一和第二个主成分的表达式。
(3)可否由第一主成分排序?为什么?
(4)前两个主成分分别提取出6个原始指标百分之几的信息?
(5)根据两个主成分将这些地区的科技创新能力划分成3类。
(6)根据层次聚类结果,将这些地区划分成3类。
(7)计算各个变量的变异系数(权重);
(8)计算各个地区的综合得分并排序。选择加权平均还是几何平均?为什么?
(2)答:
7.为了研究法国进口量与国内生产总值、股票构成和国内消费之间的关系,考察了17年间这些指标数据,并进行了主成分回归。主成分回归结果见下列各表。其中表16至表19是主成分分析结果,表20至表22是回归分析结果。
表16 描述统计
表17 相关系数阵
表18 主成分贡献率
表19 主成分的系数
表20 回归分析结果总汇
表21 方差分析表
表22 回归系数
(1)原来的自变量之间存在多重共线性吗?为什么?
(2)写出所保留的两个主成分的表达式。他们解释的原始数据的信息是多少?
(3)写出主成分回归分析的最终表达式。回归方程的显著性和回归系数的显著性如何?
8. 对破产企业收集他们在破产前两年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量: =现金流量/总债务; =净收入/总资产; =流动资产/流动债务; =流动资产/净销售额。利用SPSS对21家破产企业和25家非破产企业进行判别分析。1组为破产企业,2组为非破产企业。表1、表2、表3和表4是第4题的判别分析结果。
表1 Discriminant(判别分析)
表2 Summary of Canonical Discriminant Functions(Fisher判别函数)
表3 Classification Statistics(Bayes判别分析结果)
(1) 解释表1种给出的假设检验以及假设检验结果。假设检验的结果说明了什么?
(2) 根据表2的信息给出Fisher判别函数的表达式,由Fisher判别法,应将企业{0.25 0.08 2.12 0.44}判为哪一类?
(3) 根据表3的信息,写出Bayes判别函数的表达式,这个判别法的精度如何?
(4) 由Bayes判别法,应将企业{0.25 0.08 2.12 0.44}判为哪一类?
(2)Fisher判别函数的表达式:
故企业经营情况良好。
(3)
判别精度:原始数据的判别精度是91.3%,交叉检验的精度是87%。
(4)
由于,故企业经营情况良好。
