
一、FWL定理及其应用
考虑模型:
(1)
假如我们只关注,则通过如下步骤可以获得之。
第1步:把对其他解释变量进行回归(请注意,截距所对应的解释变量为1),即有:
(2)
第2步:把也对(2)中的解释变量进行回归,即有:
(3)
第3步:把对进行回归(不含截距,当然你可以包含截距,但你会发现,截距的估计结果是零,这是因为与其均值都为零),即有模型:
(4)
则有:,可以验证,,且残差等于初始的残差。此即著名的FWL定理(Frisch-Waugh-Lovell theorem)。关于FWL定理的一个简单证明见附录1。思考题:
利用关于“偏导数”的直觉,你能够理解吗?
考察,把代入,现在分子是:
应该注意到,在进行第一步回归时,OLS法保证了
因此,
显然,如果把对直接进行无截距回归:
(5)
我们也可以得到:
。
因此,如果只关注如何获得,我们可以把FWL定理中第二步与第三步合并为把对直接进行无截距回归。
思考题:
与相等吗?提示:
注意到,是(2)中的残差平方和,对(2),有:
其中是根据(2)计算的决定系数。
因此,。
练习:
对进行OLS估计,利用前述知识证明:
在这里,、分别是x2与x1、y的样本相关系数。
笔记:
在上述练习题中,当时,则。现在考虑另外一个回归模型:,在OLS法下,有:。总结:尽管与是不同的模型,但当x2与x1样本不相关时,在OLS法下,。
的方差是多少呢?
OLS法保证了,因此
由于我们假定是非随机的,进而也是非随机的,因此在是同方差且序列无关的假定下,有:
其中。
在上式中,通常被称为方差膨胀因子(VIF),而被称为容忍度(Tolerence)。另外,由于为的样本方差,因此,
(6)
就上述例子,根据(6)式,初步的总结是,的方差(或者标准差):
(1)随着样本容量的增加而减少;
(2)随着样本方差的增加而减少;
(3)随着增加而增加; (4)随着误差项方差的增加而增加;
笔记:
样本容量越大则信息越多,样本方差越大意味着样本覆盖面广,故信息越多。信息越多将提高估计精度。越大表示解释变量所蕴含信息的重叠度高,因此有效信息较少,故降低估计精度。误差项方差大意味着估计时所面临的不确定性程度高,因此估计精度下降。
一般是未知的,需要估计。的标准误为:
其中。因此,
考虑初始模型(1),显然有:
因此,有:
(7)
特别要注意,是随机的(在(7)式中,是随机的,其随机性来源于y的随机性)。既然是随机的,那么我们再也不能像对(6)式那样总结了!然而在大样本下,由于标准误在概率上收敛于标准差,故此时有关标准差的一些结论可以应用于标准误。
思考题:
根据特定的样本,我们可以计算出一个具体的标准误的值,公式仍然是(7)式,但此时它是非随机的。考虑此种情况。如果在模型(1)上再增添一个解释变量,显然一般是增加的,因此将增加的标准差,但一定会增加的标准误吗?
二、完全共线与多重共线
针对上述例子,如果,即被完全拟合,换句话说,存在:
其中不为零。那么根据公式:
有:。
思考题:
为什么?
现在我们把情况推广:
其中不全为零,此时,我们称四变量完全共线。根据前面的分析,我们知道,至少有一个系数的估计量是无法确定的,其方差无穷大。
把初始模型写成矩阵模式:,其中
。
在OLS法下,。为了保证估计量的存在,我们必须假定存在。然而,当X不是列满秩的,即,其中不全为零,那么是不存在的。
把情况进一步推广:,其中不全为零,为随机误差,那么我们称四变量多重共线。多重共线并没有违背高斯-马尔科夫假定,因此,高斯-马尔科夫定理仍然成立!
三、多重共线的后果
基于特定的样本,我们根据公式:
计算出一个具体的标准误的值。显然,如果较大,即多重共线性越强,那么我们得到的标准误的值可能很大。如果情况确实如此,那么这又有什么后果呢?
(1)回忆,b1是假设的真实系数。如果
很大,那么上式的分母很大,从而t趋于零,因此,也许你无论假设b1为多少,你都会不拒绝原假设!因此,t检验的可靠性降低,犯第二类错误(取误)的概率较大。
(2)构建一个置信水平的置信区间:,
显然,很大将导致置信区间更宽,因此,我们不能很好地猜测b1的取值。
四、如何判断多重共线的严重程度?
(一)基于严重多重共线性情况下模型的一些典型症状来判断多重共线性的严重程度。这些典型症状是:
1、模型整体拟合较好但很多解释变量不显著。
考虑在初始模型增添一个解释变量,显然其判定系数一般是增加的(相应的是,新模型F值可能较大),然而,增加解释变量很可能导致严重的多重共线性,从而很多解释变量不显著。
2、系数估计的符号不符合理论预期,但往往不显著。
思考题:为什么?
3、增加样本容量导致估计结果发生了很大的变化。删除一些变量也导致估计结果发生了很大的变化。
思考题:为什么?
(二)考察解释变量两两相关系数。
如果存在取值较大的相关系数,那么这意味着多重共线性程度严重,然而也应该注意到,即使两两相关系数都很小,多重共性性仍可能是严重的。
思考题:
为什么即使两两相关系数都很小,多重共线性仍可能是严重的?
(三)考察VIF或者。
如果VIF大于10,一般认为存在较严重的多重共线性(当然也可考察容忍度)。按照VIF的定义,显然,当VIF大于10时,必有一个解释变量对其他解释变量回归所得到的超过90%,而这是一个很高的判定系数。事实上,按照Klien’s rule of thumb,当大于初始模型的时,多重共线问题就值得关注了。
(四)特征根检验。
当完全共线时,不存在,,当存在严重的多重共线时,。假设的特征根是,根据矩阵代数知识:,因此,如果的特征根中至少有一个近似为0,则。因此可以根据的特征根来判断多重共线的严重程度。
笔记:
在实践中,通常基于标准化变量回归模型(每一个解释变量的每一次观察值都减去样本均值,然后再除以样本标准差,此即变量的标准化处理。标准化变量回归模型再也不含截距。)利用特征根方法。记标准化变量回归模型的解释变量矩阵为,则即为解释变量的相关系数矩阵(你能够验证吗?)。接下来我们可以根据这个相关系数矩阵的特征根(特征根个数为k)来判断原模型的多重共线性的严重性。定义病态数CN(Condition Number)=最大特征根/最小特征根、病态指数CI(Condition Index),当CI大于30或者CN大于1000时,一般认为多重共线程度严重。
五、多重共线一定会产生令我们忧虑的后果吗?
考虑模型,现在,与的相关性很大,因此,在OLS法下,与的方差或许很大。但与的相关性很大并不一定意味着、及其常变量1能够很好地拟合,因此,的方差并不一定大。总体来看,尽管由于与的相关性很大导致模型出现严重的多重共线性,然而我们关注的是对b1的估计,而的方差并不一定大,故就我们的关注点来说,多重性共线或许并未产生严重的后果。
另外从公式可以看出,影响的因素很多,因此,即使很大也并不一定使得就很大。
当利用估计模型以作预测之用时,我们经常对整个模型的拟合度较为关注,而并不关注个别系数是否显著。此时,多重共线也并不值得我们忧虑。
六、多重共线的处理方法
多重共线如果产生了令我们忧虑的后果,我们该怎么办?
(一)无为而治
一般认为,多重共线是一个样本问题,你手中样本恰好有这样的表现!如果多重共线导致了估计精度问题,那说明你掌握的数据所包含的信息含量很低,因此,“遇到多重共线我该怎么办?”这个问题无异于“如果我没有很多的观测值该怎么办?”(Goldberger,1991)。如果你不能增加样本容量,那么采取一些治疗多重共线的方法(如逐步回归等),反而可能带来灾难性的后果(Leamer,1961)(例如,如果采用逐步回归,也许这将导致遗漏一些重要的变量,结果使得OLS估计量不满足一致性)。因此,当无法增加样本容量的情况下,无为而治可能是最恰当的方式!
(二)重新建模
例一:
初始模型是一个包含人口变量的多元回归模型,如果初始模型表现出的多重共线性令你不安,那么你可以重新建立一个涉及到人均变量的模型,在该模型中,人口变量并不作为一个单独的解释变量而出现。
例二:
时间序列变量通常具有相似的时间趋势从而共线性程度可能较高,你或许可以对这些变量取差分,利用差分变量进行建模。
例三:
对一些变量取对数有时也是一种好办法。
例四:
有时在重新建模时会使用相关变量的线性组合作为解释变量,而不是把每个变量单独作为解释变量。问题是如何确定线性组合的权重。主成分分析法是解决这个问题的好办法,见附录3。
(三)使用先验信息
考虑模型,假如与其他解释变量相关性很高,从而模型多重共线性严重。如果某个理论或者先前的研究表明,,是一已知常数。那么我们可以试着重新估计一模型:
显然,先验信息的可靠性是十分重要的。
(四)其他方法,参见相关教科书,要注意相关方法的缺陷(例如逐步回归法的缺陷)。
附录1:FWL定理的一个简单证明及其推广
由下述三式:
有:
即:
把上式理解为一个拟合结果,则因为:
(1)分别与样本不相关,故
(2)与其均值都为零,故
于是:
推广:
对
必有:
其中分别是各自对进行带截距回归所得到的残差。
附录2:简单相关、偏相关与复相关;有何种联系?
x1与x2具有简单相关系数r12,然而这种相关性可能是由于x1与x2分别与x3相关造成的。在控制了x3(保持x3不变)之后,x1与x2的相关性被称为偏相关。另外,x1与(x2,x3)的相关关系被称为复相关。样本复相关系数的平方就是回归模型的判定系数R2。这些基于样本的相关系数具有何种联系呢?
一、样本偏相关系数rsample12.3的计算
步骤:
第1步:把对进行回归有:
(1)
记x1的拟合值为。
第2步:把也对进行回归,即有:
(2)
记x2的拟合值为。
第3步:计算与的简单相关系数。
则有:
可以证明,,见第三讲附录3。
二、R2与简单相关系数与偏相关系数的联系
把对进行回归,有:
而对于回归模型,其判定系数是:
按照判定系数的定义,与分别是回归(1)与回归(2)的判定系数。而在简单线性回归中,判定系数等于被解释变量与解释变量(样本)简单相关系数的平方。
从上面的结果可知,,这再次表明,当增加解释变量时,判定系数不会减少!
附录3:主成分分析法
1、基本思想
主成分分析是对数据降维的一种方法。其基本思想是设法将原来众多的具有一定相关性的指标(比如k个指标)进行线性组合,重新形成一组新的互不相关的综合指标,以代替原来k个指标。问题是,如果不加,则可以有很多线性组合。应该如何呢?
2、数学模型
在原有k个变量(指标)上构建k个新的综合指标(主成分):
矩阵表示为:
在这里。
条件:
(1),
(2)Fi与Fj(i≠j)互不相关,即:
在这里是X的协方差阵。
(3)F1,F2,… Fk方差依次递减。每一个主成分的方差代表信息,故该约束意味着,k个主成分从原始指标所提供的信息总量中所提取的信息量依次递减。
假设X的协方差阵的特征根为 1 2 … k>0,相应的正交化单位特征向量为:
可以证明,如果
则所构建的k个主成分满足上述约束,并且 1, 2,…, k分别为各自主成分的方差。
4、估计X的协方差阵
X的协方差阵是未知的。利用公式:
在这里是对变量的第m次观测,我们可以得到样本协方差阵,进而得到该矩阵的特征根与正交化单位特征向量。
5、选择主成分
我们往往并不需要全部的主成分。如果最终选择的是前p个主成分,那么一般要求这p个主成分的累计方差贡献率()在85%以上已确定的全部。在确定了主成分之后,不难得到各主成分的观测值。
笔记:
在实践中,通常是基于标准化变量进行主成分分析。标准化变量的协方差矩阵即为相关系数矩阵。假定标准化变量的数据集如下:
则即为样本协方差矩阵。
现在我们假定y的标准化变量对zy对前p()个主成分进行了回归,其结果是:
由于
在这里,是已知的。因此有:
定义:,则
回忆第一讲有关标准化系数的笔记,我们不难得到非标准变量回归的系数估计。
应该注意,如果利用全部的主成分(共k个)进行回归并反推出非标准变量回归的系数估计,则最终结果与直接对非标准变量进行回归没有任何差别(当然前者没有截距估计而直接对非标准变量进行回归可以得到截距估计)!故从终点又回到了起点,参见Kennedy(5e,p.215)。在进行主成分回归时抛弃k-p个主成分本质上就是在回归分析时施加了约束,这无疑会增加估计的精度。然而这是有代价的,一般来说,利用p个主成分进行回归并反推出非标准变量回归的系数估计并不是一致估计。
除了主成分分析法外,还有岭回归法、因子分析法等方法可以被用来处理多重共线性。但值得指出的是,基于这些方法最终所获得的系数估计一般都是非一致估计。
