最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

统计分析与建模习题

来源:动视网 责编:小OO 时间:2025-09-30 01:51:02
文档

统计分析与建模习题

习题课一、简答1.什么是多重共线性?多重共线性对参数估计的影响是什么?自变量之间存在的线性关系x1=B1x2+B2x3,y=使得参数估计结果产生严重偏差2.多重共线性的判别方法有哪些?相关系数;方差平方系数VIF=1/1-R^23.保留主成份的两种方法是什么?累积贡献率大于80%;特征值大于1原则4.主成分与因子分析的区别是什么?前者解释能力弱,经济管理含义不强;后者反之。但是其目的一样(消除共线性和降低维度)5.如何判定主成分与因子分析的有效性?KMO大于0.7可以,小于0.5就不行了;巴特
推荐度:
导读习题课一、简答1.什么是多重共线性?多重共线性对参数估计的影响是什么?自变量之间存在的线性关系x1=B1x2+B2x3,y=使得参数估计结果产生严重偏差2.多重共线性的判别方法有哪些?相关系数;方差平方系数VIF=1/1-R^23.保留主成份的两种方法是什么?累积贡献率大于80%;特征值大于1原则4.主成分与因子分析的区别是什么?前者解释能力弱,经济管理含义不强;后者反之。但是其目的一样(消除共线性和降低维度)5.如何判定主成分与因子分析的有效性?KMO大于0.7可以,小于0.5就不行了;巴特
习题课

一、简答

1.什么是多重共线性?多重共线性对参数估计的影响是什么?

   自变量之间存在的线性关系x1=B1x2+B2x3,y=

   使得参数估计结果产生严重偏差

2.多重共线性的判别方法有哪些? 

   相关系数;方差平方系数VIF=1/1-R^2

3.  保留主成份的两种方法是什么?

累积贡献率大于80%;特征值大于1原则

4.主成分与因子分析的区别是什么?

前者解释能力弱,经济管理含义不强;后者反之。但是其目的一样(消除共线性和降低维度)

5.如何判定主成分与因子分析的有效性?

    KMO大于0.7可以,小于0.5就不行了;巴特莱特球型检验的0假设(变量不相关)要拒绝就可以进行

6.何时进行聚类分析?何时进行判别分析?请举例说明。

    

7.说明K-means聚类的基本原理。与系统聚类方法相比,K-means聚类的优点是什么?

    一次一次聚类(流程图),优点是适合于大样本,能快速聚类

8.说明Bayes判别法的基本原理。

    先验概率和密度函数计算后验概率,后验概率大的选出来作为分类标准。

9.SPSS实现的Bayes判别法的前提假设是什么?什么检验能够验证这一前提假设?

    两组协方差相等,变量混合原则,BOX-M检验,方差分析检验

10.简要说明Fisher判别法的基本原理。Fisher判别法与距离判别法的关系是什么?

    将数据降低维度,然后用距离判别法进行分类新加入的数据类型。而距离判别法直接是距离进行分类

11.写出主成分回归过程。

    见PPT

12.主成分回归与逐步回归的目的是什么?两种回归结果是一样的吗?为什么?(详细叙述)

    目的是消除共线性,两种回归结果不一样,主成分回归会包含所有原始解释变量,逐步回归只包含一部分解释性强的变量

13.表现数据的手段有哪些,各自有什么特点?(详细叙述)

图形和表格,参数表达法,模型表达法

(均值,标准差,方差,相关系数,协方差)

14.回归模型前提假设是什么,含义是什么?

    误差一部兴隆服从均值是0,方差是1的正态分布

15.写出最小二乘解矩阵表达式及其分布。

   

16.写出R2以及adj-R2的计算公式。

     

17.回归模型误差的无偏估计如何计算?

    

  

18.为什么要进行回归诊断?

    检验前提假设是否成立

21.在多元回归中,如何识别自变量对因变量影响的强弱?

    通过看标准系数,把所有x,y系数标准化,再回归后得到的

22.如果回归模型用来预测,对R2和有什么要求?如果回归模型用来影响因素分析,对R2和有什么要求?

    R^2应该比较大,标准估计误差小;后者则是R^2可以稍微小点,标准估计误差要小

23.在哪些情况下引进虚拟变量?

    定性,异常状态,结构发生改变

24.在回归模型中如何引进结虚拟变量?

   Dx

25.建立进口额与GDP和D的回归模型,模型从91年起发生什么变化 ?建立进口额与GDP和DX的回归模型,模型发生什么变化 ?建立进口额与GDP、 D和DX的回归模型,模型发生什么变化 ?

二.计算题

1.填空:由1991年我国分地区家庭年人均食品支出(Y)和年人均收入(X1)及粮食单价(X2)数据可得:

回归系数表

ModelUnstandardized CoefficientsStandardized CoefficientstSig.
BStd. ErrorBeta(强度)

(Constant)-87.37862.452-1.399.173
人均收入.354.039.7739.081.000
粮食单价206.53875.212.2342.746.011
 Dependent Variable: 食品支出

(1)写出回归方程式。Y=-87.378+0.354X1+206.536X2

(2)当价格固定时,收入每上升1元,食品支出上升  0.354   元;当人均收入固定时,价格每上升1元,食品支出上升  206.538   元。

(3)那个因素对食品支出的影响最强?其强度是多少?

    人均收入影响最强,强度为0.773

2. 利用全国31个省市自治区的财政收入(Y)对GDP(X1)和第一产业就业比重(X2)的回归结果见表1和表2。

表1 方差分析表

变差来源dfSSMSF
回归713159.7
残差
总计301695042
表2 参数估计表

Coefficients标准误差t Stat
Intercept217.465877.743652.797216
X1

0.0687950.00619.983572
X2

-4.015671.272796-3.155
(1)将方差分析表中所缺数值补齐。

表1 方差分析表

变差来源dfSSMSF
回归21426319713159.774.30876
残差282687239597.25
总计301695042
(2)写出财政收入关于GDP和第一产业就业比重的多元线性回归方程,并解释各回归系数的意义。

                

    在第一产业就业比重不变的情况下,GDP增加一个单位,财政收入增加0.068795个单位;第一产业就业比重增加一个单位,财政收入下降4.01567个单位。  

(3)回归方程是否显著,其零假设是什么?各回归系数是否显著,其零假设是什么?为什么?(F=3.34 ,)F检验(只对解释变量假设)H0:B1=B2=0;T检验(依次假设,包括常量)H0:B0=0,H0:B1=0,H0:B2=0

(4)计算决定系数和调整的决定系数,并解释它的实际意义。(R^2与调整后的差距应该不大)

                       

      

意义:决定系数表明回归方程解释了因变量变异的84.15%的信息。

3. 某公司的出口额资料见表4,利用Excel作的散点图见图1。

表4 公司历年出口额(万元)

年份19971998199920002001200220032004  2005  2006   2007   2008
出口额4.25.78.311.51622.43144.6   60.1  84.3   118.6   163.9
y=ae^bx,Y=lny=B0+B1(t-1995),B0的估计=Y均值-B1估计*T均值,B1 估计=求和(Ti-T的均值)(Yi-Y的均值)/求和(T-T的均值)^2

图1  散点图

(1)根据散点图确定拟合的曲线函数。二次或者指数(写出函数模型)

(2)由给定的数据计算模型中的参数。

(3)由估计的模型预测该公司2009年出口额。

4. 为了研究月收入与性别、年龄层、学历和企业规模之间的关系,收集到数据15个,数据结构见表5。

(1)对定性变量进行虚拟化处理;

(2)建立虚拟处理后的数据表;

(3)建立月收入与性别、年龄层、学历和企业规模之间的回归关系;

(4)若一个人是男性、40多岁、大学毕业且在中型企业工作,他的月收入可能是多少?

表5  原始数据

月收入性别年龄层学历企业规模
250040多

初中小企业
260030多

初中小企业
280040多

高中小企业
300040多

高中小企业
310030多

初中中企业
320030多

高中小企业
340030多

大学中企业
360030多

高中中企业
390030多

大学大企业
400030多

高中中企业
430030多

大学小企业
460030多

大学中企业
520040多

初中大企业
540040多

大学大企业
550040多

高中大企业
5.表6是1991-2000年支出与GNP实际值的变化情况。

(1)画出数据的散点图;

(2)设计结构虚拟变量并写出多元线性回归模型;

(3)估计模型中的参数,并说明模型的显著性;

表6  支出与GNP

年份支出(Y)

GNP(X)
19914595773
19923835701
19934215907
19944766318
19955386232
199660369
19975846358
19986716390
199914287084
200015746769
6.科技创新能力包括如下几个指标:每万人科技人员国内科技论文数X1;每万人专利申请数X2;技术市场交易额X3;技术改造投资额X4;新产品产值率X5;高新技术产品占制成品出口比重X6。现考察我国8个沿海地区的科技创新情况,并根据这些指标的数据进行主成分分析,分析结果见表10、表11、表12、表13和表14,而表15是层次聚类结果。 

表10 描述统计

表11 共同度

表12 主成分的贡献率

表13 主成分系数表

表14 原始数据与两个主成分得分

  

表15  聚类的冰柱图

(1)前两个主成分的贡献率是多少?累计贡献率是多少?

(2)写出第一和第二个主成分的表达式。

(3)可否由第一主成分排序?为什么?

(4)前两个主成分分别提取出6个原始指标百分之几的信息?

(5)根据两个主成分将这些地区的科技创新能力划分成3类。

(6)根据层次聚类结果,将这些地区划分成3类。

(7)计算各个变量的变异系数(权重);

(8)计算各个地区的综合得分并排序。选择加权平均还是几何平均?为什么? 

(2)答: 

   

   

 

7.为了研究法国进口量与国内生产总值、股票构成和国内消费之间的关系,考察了17年间这些指标数据,并进行了主成分回归。主成分回归结果见下列各表。其中表16至表19是主成分分析结果,表20至表22是回归分析结果。

表16 描述统计

                            表17  相关系数阵

表18  主成分贡献率

表19  主成分的系数

表20  回归分析结果总汇

表21  方差分析表

表22 回归系数

(1)原来的自变量之间存在多重共线性吗?为什么?

(2)写出所保留的两个主成分的表达式。他们解释的原始数据的信息是多少?

(3)写出主成分回归分析的最终表达式。回归方程的显著性和回归系数的显著性如何?

8. 对破产企业收集他们在破产前两年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量: =现金流量/总债务; =净收入/总资产; =流动资产/流动债务; =流动资产/净销售额。利用SPSS对21家破产企业和25家非破产企业进行判别分析。1组为破产企业,2组为非破产企业。表1、表2、表3和表4是第4题的判别分析结果。

表1               Discriminant(判别分析)

表2 Summary of Canonical Discriminant Functions(Fisher判别函数)

表3   Classification Statistics(Bayes判别分析结果)

(1) 解释表1种给出的假设检验以及假设检验结果。假设检验的结果说明了什么?

(2) 根据表2的信息给出Fisher判别函数的表达式,由Fisher判别法,应将企业{0.25  0.08  2.12  0.44}判为哪一类?

(3) 根据表3的信息,写出Bayes判别函数的表达式,这个判别法的精度如何?

(4) 由Bayes判别法,应将企业{0.25  0.08  2.12  0.44}判为哪一类?

(2)Fisher判别函数的表达式: 

        

      故企业经营情况良好。 

(3)

     

判别精度:原始数据的判别精度是91.3%,交叉检验的精度是87%。

(4)

由于,故企业经营情况良好。

文档

统计分析与建模习题

习题课一、简答1.什么是多重共线性?多重共线性对参数估计的影响是什么?自变量之间存在的线性关系x1=B1x2+B2x3,y=使得参数估计结果产生严重偏差2.多重共线性的判别方法有哪些?相关系数;方差平方系数VIF=1/1-R^23.保留主成份的两种方法是什么?累积贡献率大于80%;特征值大于1原则4.主成分与因子分析的区别是什么?前者解释能力弱,经济管理含义不强;后者反之。但是其目的一样(消除共线性和降低维度)5.如何判定主成分与因子分析的有效性?KMO大于0.7可以,小于0.5就不行了;巴特
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top