班级:08国贸二班 姓名:朱涛 学号:080105030049 得分:
1、表中给出了20个国家五项社会经济指标的有关数据,样本分为四个收入等级:低收入(人均年收入500美元以下),中等偏低收入(人均年收入在500—2200美元之间),中等偏上收入(人均年收入在2200—5500美元之间)。表中前五个国家属于低收入国家,以此类推。
a.建立一个包括所有四个解释变量的回归模型。先验地,你认为人口增长率X4和每日卡路里吸收量X5对婴儿死亡率有什么影响?
b.对回归方程进行估计,并检验你的预测是否正确。
c.如果在上述方程中遇到多重共线性问题,该怎么办?可以采取任何你认为正确的措施。
TABLE 9-5 | |||||
INFANT MORTALITY RATE IN 20 COUNTRIES | |||||
IMOR: Infant mortality rate (per thousand live births), 1988 | |||||
PCGNP: Per capita GNP (1988$) | |||||
PEDU: Percentage of age group enrolled in primary education, 1987 | |||||
POPGROWTH: Population growth rate, 1980–1988 average | |||||
CSPC: Daily calorie supply, per capita, 1986 | |||||
Country | IMOR | PCGNP | PEDU | POPGROWTH | CSPC |
Tanzania | 104 | 160 | 66 | 3.5 | 2192 |
Nepal | 126 | 180 | 82 | 2.6 | 2052 |
Mali | 168 | 230 | 23 | 2.4 | 2073 |
Nigeria | 103 | 290 | 77 | 3.3 | 2146 |
Ghana | 88 | 400 | 71 | 3.4 | 1759 |
Philippines | 44 | 630 | 106 | 2.5 | 2372 |
Cote d’Ivoire | 95 | 770 | 70 | 4.0 | 2562 |
Guatemala | 57 | 900 | 77 | 2.9 | 2307 |
Turkey | 75 | 1280 | 117 | 2.3 | 3229 |
Malaysia | 23 | 1940 | 102 | 2.6 | 2730 |
Algeria | 72 | 2360 | 96 | 3.1 | 2715 |
Uruguay | 23 | 2470 | 110 | 0.6 | 28 |
Korea | 24 | 3600 | 101 | 1.2 | 2907 |
Greece | 12 | 4800 | 104 | 0.5 | 3688 |
Venezuela | 35 | 3250 | 107 | 2.8 | 2494 |
Spain | 9 | 7740 | 113 | 0.5 | 3359 |
Israel | 11 | 8650 | 95 | 1.7 | 3061 |
Australia | 9 | 12340 | 106 | 1.4 | 3326 |
U.K. | 9 | 12810 | 106 | 0.2 | 3256 |
U.S.A. | 10 | 19840 | 100 | 1.0 | 35 |
1、 设IMOR为Y,PCGNP为X2,PEDU为X3,POPGROWTH为X4, CSPC为X5
建立模型:Yi=B1+B2*X2i+B3* X3i+B4* X4i+B5* X5i+ui
认为人口增长率X4和婴儿死亡率成正相关,每日卡路里吸收量X5与婴儿死亡率成负相关。
2、 对回归方程进行估计
Dependent Variable: Y | ||||
Method: Least Squares | ||||
Date: 04/27/11 Time: 10:05 | ||||
Sample: 1 20 | ||||
Included observations: 20 | ||||
Y=C(1)+C(2)*X2+C(3)*X3+C(4)*X4+C(5)*X5 | ||||
Coefficient | Std. Error | t-Statistic | Prob. | |
C(1) | 172.6195 | 52.45598 | 3.290749 | 0.0050 |
C(2) | -0.002502 | 0.001535 | -1.6291 | 0.1240 |
C(3) | -1.279618 | 0.316722 | -4.040198 | 0.0011 |
C(4) | 6.379603 | 7.045706 | 0.905460 | 0.3795 |
C(5) | -0.001363 | 0.018708 | -0.072873 | 0.9429 |
R-squared | 0.815002 | Mean dependent var | 54.85000 | |
Adjusted R-squared | 0.765670 | S.D. dependent var | 46.78312 | |
S.E. of regression | 22.662 | Akaike info criterion | 9.290217 | |
Sum squared resid | 7693.044 | Schwarz criterion | 9.539150 | |
Log likelihood | -87.90217 | Durbin-Watson stat | 2.433266 |
Yi =172.6195 - 0.002502X2i - 1.279618X3i + 6.379603X4i - 0.001363X5i
Se=(52.45598) (0.00153) (0.31672) (7.0457) (0.0187)
t=(3.290749) (-1.6296) (-4.04019) (0.90546) (-0.07287)
Prob =(0.005) (0.124) (0.0011) (0.3795) (0.9429)
由估计知,预测正确。
当其他解释变量不变时,人口增长率变动一个百分点,婴儿死亡率就同方向变动6.379603个百分点;
当其他解释变量不变时,每日卡路里吸收量变动一个单位,婴儿死亡率就反方向变动0.001363个单位。
3、 首先从回归结果中可以看到,R2超过了0.8较高,但解释变量t值显著的不多,体现了多重共线性的典型特征。
下面用辅助回归方法诊断多重共线性的程度问题,具体步骤:
a、做X2对其他剩余变量的回归,求样本判定系数R22 =0.606075
b、做X3对其他剩余变量的回归,求样本判定系数R32=0.463117
c、做X4对其他剩余变量的回归,求样本判定系数R42 =0.590958
d、做X5对其他剩余变量的回归,求样本判定系数 R52=0.757171
检验假设R22=0(即X2与剩余3个变量不存在共线性),
即F=
以此类推,得到检验R2显著性表:
值R2 | F值 | F值是否显著 |
0.606075 | 8.205622 | 是 |
0.463117 | 4.60055046 | 否1 |
0.590958 | 7.7052625 | 是 |
0.757171 | 16.629996 | 是 |
2表示5%的显著水平
k=4, n=20
由F检验得,分子自由度为3,分母自由度为16,5%的显著水平时,临界值为3.24 ,由于四个F值全部大于3.24,所以全部拒绝原假设,因此都是显著的;当1%的显著水平时,临界值为5.29,只有X3小于临界值,不拒绝原假设,所以X2,X4,X5与其他变量共线。
补救策施:
考虑从模型中删除变量X2,X5
建立模型:Yi=B1+B2*X2i+B3* X3i+ui
对回归方程进行估计得
Dependent Variable: Y | ||||
Method: Least Squares | ||||
Date: 04/27/11 Time: 11:30 | ||||
Sample: 1 20 | ||||
Included observations: 20 | ||||
Y=C(1)+C(2)* X3+C(3)* X4 | ||||
Coefficient | Std. Error | t-Statistic | Prob. | |
C(1) | 147.16 | 35.07843 | 4.196016 | 0.0006 |
C(2) | -1.335203 | 0.291488 | -4.580652 | 0.0003 |
C(3) | 14.00690 | 5.659923 | 2.474751 | 0.0242 |
R-squared | 0.7653 | Mean dependent var | 54.85000 | |
Adjusted R-squared | 0.738351 | S.D. dependent var | 46.78312 | |
S.E. of regression | 23.93033 | Akaike info criterion | 9.325652 | |
Sum squared resid | 9735.234 | Schwarz criterion | 9.475012 | |
Log likelihood | -90.25652 | Durbin-Watson stat | 2.262629 |
Yi =147.16 - 1.335203X3i + 14.00690X4i
Se= (35.07843) (0.291488) (5.659923)
t= (4.196016) (-4.580652) (2.474751)
Prob = (0.0006) (0.0003) (0.0242)
从回归结果中可以看到,解释变量t值都很显著。
利用辅助回归设做X4对X3的回归,求样本判定系数R42 = 0.292240
计算其F值=7.432,在5%的显著水平下,超过了其F检验的临界值4.41,所以接受原假设,因此X4与X3不存在线性,或者说线性程度很小,因此补救策施成功,消除了共线性,或者说是削弱了共线性。
1.如果在上题得模型中不包括X4和X5两个解释变量,对回归结果进行异方差检验,按照怀特异方差检验方法,得到如下回归结果:(注:为了节省篇幅,只给出了t统计量和它们的p值。这些结果通过E-view软件实现)
ei2=-15.76+0.3810X2i-4.51X3i+0.000005X2i2+0.1328X3i2-0.0050X2iX3i
t=(-0.01) (0.60) (-0.13) (0.87) (0.56) (-0.85)
pvalue=(0.9) (0.556) (0.5) (0.394) (0.581) (0.400)
R2=0.23
d.如何解释上述回归方程?
e.回归方程是否表明存在异方差问题。
f.如果方程存在异方差,如何消除异方差?
解:
a 上述回归方程是残差平方和ei2对原始变量PCGNP,PEDU,PCGNP的平方,PEDU的平方,及PCGNP与PEDU交叉乘积的回归。这个回归方程描述的是扰动项或者残差项与解释变量的关系。从回归结果中我们看出五个解释变量的系数统计显著的不多,或者说这五个解释变量的系数并不是显著不为0的,但是拟合优度不高,所以残差和方程中的解释变量的关系不确定。
b 利用怀特一般异方差检验,我们知道,由R2=0.23,n=20, n* R2=4.6,对n* R2=4.6进行χ2检验,而根据统计变量的个数n=20和k-1=5,此时的显著性水平介于25%和50%之间,所以接受零假设,即模型中不存在异方差。
c.我们可以使用下列方法来消除异方差:
(1)在此题目中可以使用对数形式估计模型,而不再使用线性模型来估计。可重新设定模型,即选择一个不同的函数形式。
(2)为了排除了异方差的影响。利用怀特异方差校正后的标准误差和t统计量来进行检验和预测,
(3)当方差已知时,我们可以采取加权最小二乘法来消除异方差,这个时候只要除以标准差就可以变成同方差的回归模型;
当方差未知时,可以分为两类,即当误差方差与自变量成比例时采用平方根变换方法消除异方差,当误差方差与自变量的平方成比例时采用方程两边同时除以自变量来消除异方差。