
时间序列数据或截面数据都是一维数据。例如时间序列数据是变量按时间得到的数据;截面数据是变量在截面空间上的数据。
面板数据(panel data)也称时间序列截面数据(time series and cross section data)或混合数据(pool data)。面板数据是同时在时间和截面空间上取得的二维数据。面板数据从横截面(cross section)上看,是由若干个体(entity, unit, individual)在某一时刻构成的截面观测值,从纵剖面(longitudinal section)上看是一个时间序列。
对于面板数据yit(i=1,2,…,N,t=1,2,…,T)来说,如果从横截面上看,每个变量都有观测值,从纵剖面上看,每一期都有观测值,则称此面板数据为平衡面板数据(balanced panel data)。若在面板数据中丢失若干个观测值,则称此面板数据为非平衡面板数据(unbalanced panel data)。
本章主要讨论静态面板数据模型的相关理论及软件操作,首先从模型的检验开始到介绍变截距模型中的固定影响变截距模型和随机影响变截距模型,然后到变系数模型。本章的流程图如下:
16.1面板数据模型建模的基本原理
在应用多元回归分析建立的计量经济模型时,如果所建的模型中缺失了某些不可观测的重要解释变量,使得回归模型随机误差项常常存在自相关。于是回归参数的最小二乘法OLS估计量不再是无偏估计或有效估计。但是,运用面板数据建立的计量经济模型时,对于一些忽略的解释变量可以不需要其实际观察值,而通过控制该变量对被解释变量的影响的方法获得模型参数的无偏估计。
由此可见,面板数据不仅可以同时利用截面数据和时间序列数据建立计量经济模型,而且能更好地识别和度量单纯的时间序列模型和单纯截面数据模型所不能发现的影响因素,它能够构造和检验更复杂的行为模型。例如:在宏观领域,它被广泛用于劳动经济学、国际金融、经济增长、产业结构、技术创新、税收等领域。
16.1.1面板数据模型基本框架
面板数据能更好地识别和度量时间序列或截面数据不可发觉的效应,有助于建立和检验更复杂的行为模型,其基本模型是如下形式的一般回归模型:
(16.1.1)
其中:是个体在时间时期的观测值,表示模型的常数项,代表固定或者随机的截面效应,代表固定或者随机的时期效应,表示k阶解释变量观测值向量。表示解释变量的系数向量,并且在根据其条件的分为三种值,一是对所有截面和时期都是相同的常数,二是在不同的截面是不同的系数,三是在不同的时期是不同的。是同分布的误差项,即。
在公式(16.1.1)中,如果考虑k个解释变量,自由度远小于参数个数,对于截面成员方程,待估计参数的个数为,对于时间截面方程,待估计参数的个数为,这使得该模型无法估计。为了对模型进行估计,则可以建立以下的两类模型:从个体成员角度考虑,建立含有N个个体成员方程的面板数据模型;在时间点上截面,建立含有T个时间点截面方程的面板数据模型。
1)含有N个个体成员方程的面板数据模型
模型形式如下:
(16.1.2)
其中:是个体的观观测值的时间序列。系数向量取值受不同个体的影响,表示个体解释变量观测值时间序列。是T阶的单位行向量,是T阶的单位列向量。,包括所有的时点效应。该式含有N个截面方程。
2)含有T个时间截面方程的面板数据。
其形式如下:
(16.1.3)
其中:是某一时间点的各个个体成员的因变量观测值序列。系数向量取值受不同时期的影响,表示某一时间点的各个个体成员的解释变量观测值序列。是N阶行向量,是N阶列向量。,包括所有的截面效应。该式含有T个时间截面方程。
(1)为了更好讨论,将这些方程堆积在一起。首先,按照面板数据的截面方程堆积起来的,表示如下:
(16.1.4)
在截面单位和时期的数据和参数满足经典假设的前提下建立的矩阵和矩阵,其无约束的协方差矩阵如下:
(16.1.5)
(2)将这些方程看出是一系列的时点方程,通过时点堆积起来的方程组如下:
(16.1.6)
其协方差矩阵如下:
(16.1.7)
为了得到模型(16.1.1)的参数的无偏有效估计量,假设模型满足下列条件:
①误差项均值为0,并且同方差。
②误差项不存在截面相关。
③解释变量与误差项相互。
④解释变量之间线性无关。
⑤解释变量是非随机的。
如果模型满足上面的假设,可以用最小二乘法估计模型的参数。
16.1.2面板数据分类
在模型(16.1.1)式子中,将和归入截距里,常用的有如下的三种情形:
情形1: (16.1.8)
情形2: (16.1.9)
情形3: (16.1.10)
1)对于情形1,假设在横截面既无个体的影响,也没有结构的变化。即对于每个个体成员方程,截距项和系数向量均相同。对于该模型,将各个个体的时间序列数据堆积在一起来作为样本数据,这种模型称为混合回归模型(Pooled Regression Model)。那么可以直接利用普通最小二乘法(OLS)估计参数,则该模型为:
(16.1.11)
实际上,混合回归模型假设了解释变量对被解释变量的影响与个体无关。这种假设被广泛的应用,但是在很多实际问题的研究中,该模型不是很适用。因此,本书不详细讨论这种模型。
2)对于情形2,假设在个体成员上存在个体影响而无结构变化,并且个体影响可以截距项的差别来说明,而系数向量相同,称该模型为变截距模型。从估计方法角度,有书也称之为个体均值修正回归模型(individual-mean corrected regression model)。即模型形式如下:
(16.1.12)
3)对于情形3,假设在个体成员上既存在个体影响,又存在结构变化,即用变化的截距项来说明的同时,用系数向量依个体成员的不同而变化,来说明个体成员之间的结构变化。这样的模型我们称为变系数模型或无约束模型(unrestricted model)。
(16.1.13)
16.1.3模型检验原理
在对面板数据进行估计时,使用的样本包含了个体、指标、时间3个方向上的信息。如果模型设定不正确,估计结果将与所要模拟的经济现实偏离很远。因此,建立面板数据模型之前要检验被解释变量的参数是否在所有横截面样本点和时间上都是常数,即检验所研究的问题属于上述3种情况的哪一种,以确定模型的形式。常用的检验是协变分析检验或协方差分析检验(analysis of covariance)。主要检验如下的两个假设:
(16.1.14)
(16.1.15)
如果接受了假设2,可以认为样本数据符合模型(16.1.11),不需要进行进一步的检验了。如果拒绝了假设2,还要进行检验假设1。如果接受假设1,则认为样本数据符合模型(16.1.12)。如果假设1也被拒绝了,才应采用模型(16.1.13)。
下面是进行假设检验F统计量的计算方法。
记, (16.1.16)
模型(11.8)的参数最小二乘法估计后,得到:
,,
(16.1.17)
模型(16.1.13)的残差平方和为:
(16.1.18)
计算模型(16.1.12)的残差平方和,如果记为:
,,
模型(16.1.12)残差平方和为:
(16.1.19)
计算模型(16.1.11)的残差平方和,如果记
, (16.1.20)
(16.1.21)
其中:,,则模型(16.1.11)残差平方和记为
(16.1.22)
在假设H2下检验统计量F2服从相应自由度下的F分布,即
(16.1.23)
若计算所得到的统计量F2的值不小于给定置信度下的相应临界值,则拒绝假设H2,继续检验假设H1,检验统计量F1服从相应自由度的F分布,
(16.1.24)
若计算所得的统计量F1的值不小于给定置信度下的相应临界值,则拒绝假设H1,用模型(16.1.13)拟合样本,反之,则用模型(16.1.12)。
在实际经济问题的分析中,变截距模型和变系数模型比较常见,因此本章主要介绍这两类模型的相关理论与软件操作。
16.1.4模型检验软件操作
例如,我们使用Grunfeld(1958)的公司水平的平衡面板数据(后来被Baltagi2001年扩展)。该面板数据是对美国10个大型制造业企业的年投资(I)、公司价值(F)和公司资本(K)观测20年数据(1935-1954)。在后面的面板数据模型中以及下章都将采用本例数据进行示范操作。
第一步,假定截距和系数都随截面变化,即为模型(16.1.13),先对模型进行最小二乘估计得到残差平方和为:
图16.1.1
其结果为:
图16.1.2
得到S1=324728.6。
第二步,截距随截面变化,系数在每个截面都相同,模型估计设置如下:
图16.1.3
得到的残差平方和S2=523478.1。
第三步,进行混合模型估计,截距和系数对每个截面都是相同的,模型设定如下:
图16.1.4
然后从估计结果中得到S3=1935595。
为了确定面板数据分析模型,首先利用F检验进行模型设定检验。N=10,T=20,k=2(解释变量个数),则有
F2=[(1935595-324728.6)/(9*3)]/[324728.6/(200-10*3)]=31.2337507,
临界值F0.95(27,170)值在1.55左右,拒绝假设H2,则继续检验H1;
F1=[(523478.1-324728.6)/18]/[324728.6/170]=5.78045362,
F0.95(18,170)介于1.66和1.67之间,F1也大于临界值,拒绝H1,选用模型(16.1.13)拟合样本。
16.2固定效应变截距模型
在日常生活中,变截距模型用的最广泛。根据未观测效应与解释变量是否相关,将模型又分为固定效应模型和随机效应模型。本节主要介绍固定效应模型的相关理论及软件操作,有关随机效应变截距模型将在下节论述。
16.2.1固定效应模型原理
1)平衡数据
如果面板数据遵循以下5个假设:
(1)对于个体i,可以用下面的线性模型来表示:
(16.2.1)
(2)对于每个时期t,在给定非观测效应和解释变量的条件下误差项的期望为零,即 (16.2.2)
(3)每个解释变量在时间上有所变化,并且解释变量之间无线性关系。
(4) (16.2.3)
(5) (16.2.4)
则的固定效应估计量是其最优线性无偏估计(Blue),此时可采用两种方法进行估计,固定效应变换法和虚拟变量回归法。
(1)固定效应变换法
为说明此方法的原理,先考虑最简单的情况,假设仅有一个解释变量的模型,对于个体i,有:
(16.2.5)
对每个i在时间上求均值,得到 (16.2.6)
其中:,,
因在不同时间固定不变,它同时出现在式子(16.2.5)和式子(16.2.6)中,如果对于每个t,都将式子(16.2.5)从式子(16.2.6)中减去,我们便得到
记为: (16.2.7)
这里,,是的除时间均值数据(time-demeaned data),对,的解释也是类似。固定效应变换又称为组内变换(within transformation)。在方程(16.2.7)中非观测效应已消失,可以使用混合的普通最小二乘法(OLS)对变换后的数据进行估计。基于除时间均值变量的混合OLS估计量被称为固定效应估计量(fixed effects estimator)或组内估计量(within estimator)。后一种是因为估计时使用了解释变量和被解释变量在每个横截面观测之内的时间变异。
把模型进行扩展到多个解释变量的形式,原始模型为:
(16.2.8)
作类似变换,得到消去时间均值的模型为:
(16.2.9)
使用普通最小二乘法估计,求出各回归系数的估计值,再把估计值代入式子(16.2.8),求出个体对应的截距。
(2)虚拟变量回归法
对于个体i建立如下回归模型: (16.2.10)
其中,考虑k个解释变量,对应就有k个系数组成的向量,是误差项,用来表示个体之间的差别,由于只在第i个个体出现,所以可以考虑构造一个虚拟变量作为的系数。考虑整个面板数据集,可以用下面的模型来表示:
(16.2.11)
其中,,,,
,,,其中,为维单位矩阵。
误差项满足上面的假设,用最小二乘法估计得到最优线性无偏估计,
(16.2.12)
(16.2.13)
其中:,,
在模型(16.2.11)中,的系数的观测值可写成可观测的虚拟变量的形式,该模型通常被称为最小二乘虚拟变量(LSDV)模型。如果N比较小,此模型可以当作具有N+k个参数的多元回归,参数由最小二乘法进行估计。但是若N充分大时,此时的计算量会非常大,则可以采用下面的分块回归方法进行计算。
令,因为,所以,则式子(16.2.11)可以写成
(16.2.14)
使用普通最小二乘法,得到的估计值为
(16.2.15)
截距的估计为
(16.2.16)
模型(16.2.11)也被称为协方差分析模型,因此参数的LSDV估计有时也被称为协方差估计。参数的协方差估计是无偏的,且当n或T趋于无穷大时,其是一致估计的。
16.2.2固定影响模型类型
引进总体均值截距项的固定影响变截距模型主要包括以下几类:
(1)包含个体影响的固定影响变截距模型
引进了总体均值截距项(),个体影响变截距模型可写成如下形式:
(16.2.17)
在该形式下,模型中反映个体影响的跨成员方程变化的截距项被分解成两个部分,在各个个体成员方程汇总都相等的总体均值截距项()和跨成员方程变化的表示个体对总体均值偏离的个体截距项()。个体截距项()表示的是个体成员i对总体平均状态的偏离,所有偏离之和应该为零,即
(16.2.18)
在该约束下,可以得到模型(11.6)中各参数的最优线性无偏估计
(16.2.19)
(16.2.20)
(16.2.21)
其中:,
(2)包含时点固定影响变截距模型
Eviews软件中,除了可以单独估计包含个体恒量影响的模型,还可以对时点恒量影响的变截距模型进行估计,实际上是每个时点为一个截面进行一次回归,模型形式可以写为
(16.2.22)
同个体固定效应模型一样,
注意,计算变截距模型的个体影响时,在不同的软件给出的个体影响形式不同。本书主要应用EViews软件估计,则这里介绍的是EViews里面模型形式。
(3)包含时期个体恒量的固定影响变截距模型其他形式
包含时期个体恒量的固定影响变截距模型的计算方法,与上面的类似。其模型形式为:
(16.2.23)
其中:为时期恒量,反映时期特有的影响,也就是反映未观测的随时间变化的变量的影响。类似的,通过引进相应的个体成员和时期虚拟变量,利用普通最小二乘法可以得到该形式下的参数的OLS估计,即
(16.2.24)
(16.2.25)
(16.2.26)
(16.2.27)
其中:,,,
,
16.2.3固定效应模型软件估计
1)个体固定效应模型在Eviews软件估计如下:
(1)POOL数据形式估计:
①首先,建立Pool。在打开工作文件的基础上,点击主菜单中的Object/New Object……,选择Pool(混合数据库),点击“确定”,从而打开Pool窗口,在窗口中输入10个公司名称标识AR,CH,……,WH。见图16.2.1。
图16.2.1 定义面板数据的个体
②生成新序列和输入数据。在Pool窗口的工具栏中点击sheet键,从而打开Series List(列写序列名)窗口,定义变量I?、F?和K?,点击OK键,接着点击Pool窗口工具栏中的Edit,输入数据。如图16.2.2和16.2.3。注意,前面截面标识名设定与这里序列名的设置保持一致。如果前面截面标识名设为“_AR”与序列名的“I?”对应,而如果是“AR_”,则与序列名“?I”对应。
图16.2.2生成面板数据的时间序列
然后点击OK,得到如下的堆积数据:
图16.2.3
③Dependent Variable(相依变量即因变量)选择窗填入Pool面板数据的因变量或被解释变量;在Specificatin页面下,在Regressors and AR() terms下面Common coefficients里填入解释变量,再在cross-section选择fixed,点击“确定”后就可得到包含个体影响的模型参数估计值。
图16.2.4
④估计结果如下:
图16.2.5
估计结果的上半部分显示了因变量、估计的方法样本相关的基本的信息,下面除了显示一般的解释变量系数的估计外,还以个体的标识名和常数C的合名形式显示了个体固定效应,他们表示的是对总体截距(比如:-58.744)的偏离,并且他们的和为零。
(2)当然除了用pool数据形式对面板数据进行估计外,也可以在workfile中的panel structure形式下的面板数据进行估计,以个体固定效应模型为例,其估计过程如下:
①首先,Eviews中直接建立Panel结构的工作区,具体操作如下:File/New/workfile,然后在Workfile structure type中选择Balanced Panel,得到如图所示的对话框,然后进行相关的面板设定。
图16.2.6
点击OK,得到如下的面板数据格式的工作区:
图16.2.7
由图16.2.7可知,系数C,序列Crossid,dateid及resid均由系统自动生成。C与序列resid是系统默认的存放估计系数(包括迭代的初值等)与残差的序列。Crossid,dateid是Panel Data所特有的用于存放截面与时期标号的序列。
接着建立新序列I,F,K。
图16.2.8
②对估计方程的设定,在Equation specification处设定依次填入方程的因变量和自变量:如下图所示:
图16.2.9
③选择最小二乘法,即LS(Least Squares),然后再对固定个体设定,即点击Equation Estimation对话框的Panel Options页面,在Cross-section下来菜单中选择Fixed,
图16.2.10
④点击“确定”后,估计结果没有包括个体的固定效应,其结果如下:
图16.2.11
⑤如果想要查看截面中的固定效应或者随机效应,可以通过估计结果工具栏中的View/Fixed/Random Effects/Cross-section Effects,
图16.2.12
比如本例中的截面固定效应如下图:
图16.2.13
注意:第一,Panel结构的工作区中方程设定估计的时点固定效应以及随机效应,都可通过这样的方式查看。第二,Pooled Data的方法与Panel Data的方法针对同一问题所得到的结果是一致的,但Panel Data模组的功能更加强大,而Pooled Data显得更加直观,读者可以根据自己的需要选择自己喜欢的方法。不过,一般Pool对象侧重分析“窄而长”的数据,即截面成员较少而时期较长的侧重时间序列分析的数据;对于截面成员较多时期较少的“宽而短”的侧重截面分析的数据,一般通过具有面板结构的工作文件进行分析,并且利用面板结构的工作文件可以实现变截距以及动态面板数据模型的估计。
时点固定效应模型估计结果显示与个体固定影响模型一样,上半部分显示了因变量、估计的方法样本相关的基本的信息,下面除了显示一般的解释变量系数的估计外,还以时点的标识名和常数C的合名形式显示了时点固定效应,他们表示的是对总体截距的偏离,并且他们的和为零。个体时点固定效应模型的结果也是类似的。
16.2.4非平衡数据的固定效应模型
前面讨论都是假设在所有使用的面板数据中,各个体成员的观测数据个数相同。然而在实际分析中,经常会遇到各个体成员观测数据个数不等的情况,即在所获得的面板数据中,一些个体成员的数据较多而另一些个体成员的数据较少。这种情况下的面板数据被称为非平衡数据。对于非平衡数据的固定影响模型,只需将上面的方法进行简单修正,便可得到参数的相应的协方差估计。
设第i个截面成员的观测数据个数为,则观测数据总数为,变量的总体平均为
, (16.2.28)
其中:
模型的参数的估计量为:
(16.2.29)
其中:
估计出后,根据(16.2.13)可以求出最小二次虚拟变量形式下的固定影响变截距模型的截距项;根据式子(16.2.20)和式子(16.2.21)可以求出引进总体均值截距项形式下的个体固定影响变截距模型中的和;根据式子(16.2.25)、式子(16.2.26)和式子(16.2.27)可以求出包含时期个体恒量的固定影响变截距模型中的和、。
比如我们可以2003到2006年的对外贸易TIE与对外直接投资ODI两者的非平衡面板数据作一个类似的操作分析:
①在POOL estimation的设定如下图:
图16.2.14
②点击“确定”后,软件估计结果如下图:
图16.2.15
从上面的估计结果可以看出,顶端除了显示一些估计的基本信息外,还报告了数据类型,比如Total pool(unbalanced)都很明显的说明了该数据是个非平衡数据。与平衡面板数据类似,也可以对非平衡数据进行个体固定、时期固定和包含个体时期固定的模型进行估计。
16.3固定效应变截距模型另外两种估计方法
16.3.1广义最小二乘估计
在固定影响变截距模型中,如果随机误差项不满足等方差或相互的假设,则需要使用广义最小二乘法(GLS)对模型进行估计。如果误差项的方差有如下结构,个体成员截面异方差、时期异方差、同期相关协方差和时期间相关协方差,则可以采用广义最小二乘法对该模型估计。对应于各种方差结构的GLS估计过程的主要步骤均为:先估计系数,然后计算GLS的转换权重,之后在加权数据基础上重新估计,或者利用迭代的方法,重复上面的步骤直至系数和权重收敛为止。假定参数满足时间一致性,即参数值不随时间的不同而变化,存在个体成员截面异方差和同期相关协方差。假定参数随着时间的不同而变化,而存在时期异方差和时期间相关协方差。
1)个体成员截面异方差情形的GLS估计
个体成员截面异方差是指个体成员方程的随机误差项之间存在异方差,但个体成员之间和时期之间的协方差为零,对应的假设为:
(16.3.1)
(16.3.2)
该情形用广义最小二乘法估计非常简单,首先对方程进行普通最小二乘估计,然后计算各个体成员的残差向量,并用其来估计个体成员的样本方差:
(16.3.3)
其中:是OLS的拟合值。个体成员方程截面异方差的协方差矩阵的估计为:
(16.3.4)
然后,用得到的样本方差估计作为各个个体成员的权重,即加权矩阵为,利用加权最小二乘方法得到相应的GLS估计。类似地,可以得到含有T个时间截面方程情形下的时期异方差的GLS估计。
在Eviews软件操作中,设定广义最小二乘法估计面板数据时,在pool estimation对话框中,在weighs处选择cross-section weighs,设定如下:
图16.3.1
然后点击“确定”,得到的结果如下:
图16.3.2
从上面的估计结果比较可以看出,广义最小二乘法提高了整个模型的拟合优度,也使变量的系数估计更准确了。
2)同期相关协方差情形的SUR估计
同期相关协方差是指不同的个体成员i和j的同一时期的随机误差项是相关的,但其在不同时期之间是不相关的,相应的假设为:
(11.8) (16.3.5)
(16.3.6)
同期相关协方差是允许同一时期即t不变时,不同个体成员之间存在协方差。如果把假设(11.8)中的表达式写成向量的形式:
(16.3.7)
对于任意的t有
(16.3.8)
这种个体成员之间存在协方差的方差结构有些类似于个体成员方程框架下的近似不相关回归(seemingly unrelated regression,SUR),因此将这种结构称为个体成员截面SUR(cross-section SUR)。
(1)已知的情形
SUR方法适合于方程间的残差可能具有异方差和同期相关,但是单个方程不存在序列相关的情形。如果是是已知的,则参数的SUR估计为
(16.3.9)
其中:,,,
其中:是维因变量向量,是维解释变量向量矩阵,,。
(2)未知的情形
一般的情况下,都是未知的,这时就需要利用普通最小二乘法先估计为加权系统的参数,得到的一致估计矩阵,中的元素的估计值为
, (16.3.10)
其中:和可由式子(16.2.12)和(16.2.13)计算得到。计算后,再进行广义最小二乘法估计(GLS),此时的SUR估计为
(16.3.11)
个体成员截面SUR加权最小二乘法简单地说,就是对由各个个体成员方程所构成的系统进行GLS估计,系统中允许存在个体成员异方差和同期相关。估计过程为:先利用第一阶段的普通最小二乘法估计获得的估计,然后在第二阶段获得相应的GLS估计。类似地,可以得到时期近似不相关(period SUR)(时期方程框架下的近似不相关)情形下的GLS估计。
其软件操作与前面截面异方差类似,只需pool estimation的设定中在weighs处选择cross-section SUR,点击确定后即可得到GLS估计的结果。
图16.3.3
该结果显示的模型的拟合优度又比cross-section加权高,证明了面板数据既存在截面异方差又存在同期相关,即同期相关协方差,选用cross-section SUR加权的方式对数据进行广义最小二乘法估计更有效。
3)时期异方差
与截面异方差类似,时期异方差就是指每个时期有一个不同的残差方差。不同截面的残差和不同时期的残差和为零,即为:
(16.3.12)
(16.3.13)
用广义最小二乘法估计时,先对方程进行普通最小二乘估计,然后计算各个体成员的残差向量,
(16.3.14)
然后用这些残差向量估计时期协方差,对数据赋予权重,再进行可行性的GLS估计。时期异方差的软件设定与前面类似,在pool estimation的设定中在weighs处选择Period weighs即可。
4)时期间相关协方差的SUR估计
在给定的截面内,允许存在任意时期序列相关和时期异方差,但不同截面间残差不相关。因此有假设:
(16.3.15)
(16.3.16)
计算某一具体的截面残差向量,我们可以重新写该假设:
(16.3.17)
类似地,可以得到时期近似不相关(period SUR)(时期方程框架下的近似不相关)情形下的GLS估计。估计过程为:第一阶段,先利用普通最小二乘法估计模型,获得的估计;第二阶段,再进行相应的GLS估计。该方差结构在软件操作时,pool estimation的设定中在weighs处选择Period SUR。
但要注意的是,使用广义最小二乘法估计的面板数据,其截面成员的个数必须等于或者超过时期数,才可用此方法。比如本章使用的公司水平面板数据案例中,截面成员只有10个,而时期数有20年,当用此方法进行估计时,便出现警告无效数据的对话框。
16.3.2二阶段最小二乘法估计
在固定影响变截距模型中,当各个个体成员方程的误差项之间既不存在异方差又不存在同期相关,但是随机误差项与解释变量相关时,无论用OLS还是GLS估计都是有偏非一致估计,此时需要采用二阶段最小二乘方法(two stage least square,TSLS)对模型进行估计。
如果矩阵中的q(>k)个变量同解释变量相关,但同随机误差项不相关,则可用作为工具变量对模型进行二阶段最小二乘法估计,参数相应的估计结果为
(16.3.18)
(16.3.19)
其中:,,
二阶段最小二乘法其实是属于工具变量法,因此二阶段最小二乘法也称为工具变量法。该估计方法在Eviews软件中,操作如下。首先在Specification设定如下:
图16.3.4
在Instrument list页面填入与估计参数一样多的工具变量,比如此例子中有三个参数需要估计,需要加入三个工具变量。一般常数是默认的一个工具变量,然后就是利用变量的滞后项作为工具变量:
图16.3.5
然后点击“确定”,得到估计结果如下:
图16.3.6
估计结果的上半部分显示估计的方法为TSLS或者工具变量法,由于用了滞后一期的自变量作为工具变量,样本数减少了10,并且清楚的显示了设定的三个工具变量。但在下面的估计结果中Instrument rank也显示了工具变量的个数为12,这是因为在该方程估计中,将个体固定效应也作为了工具变量,就是设定的三个工具变量加上9个个体的虚拟变量。
图16.3.7
16.4随机效应变截距模型
16.4.1随机效应模型原理
当个体成员单位是随机抽自一个大的总体时,固定影响模型便仅仅适用于所抽到个体成员,而不适用于样本之外的其他单位。在这种情形下,如果仅仅对样本自身进行分析,选用固定影响是合适的,但想以样本结果对总体进行分析,则应该选用随机效应模型,即把反映个体差异的特定常数项看作是跨个体成员的随机分布。即未观测效应是随机变量时,即任何一个解释变量任何时期都与未观测到的变量不相关,这也是固定效应与随机效应本质的区别,那么使用固定效应消去的变换会导致非有效估计量。随机影响变截距模型把变截距模型中用来反映个体差异的截距项分为常数项和随机变量两部分,并用其中的随机变量项来表示模型中被忽略的、反映个体差异的变量的影响。模型形式如下:
(16.4.1)
其中:为截距中的常数项部分,为截距中的随机变量部分,代表个体的随机影响。
该模型有如下的假定:
①与不相关;②;③;
④;⑤;⑥,
为了分析方便,令,,,则模型可写为
(16.4.2)
如果令,则有,
与不相关;;,;
;
可见,随机影响变截距模型的误差项为两种随机误差之和,方差为各随机误差的方差之和,因此各随机误差的方差有时也被称为成分方差,相应地称该模型为方差成分模型(error component model)。在该模型中,随机误差项与解释变量不相关,但同一个体成员、不同时期的随机误差项之间存在一定的相关性。普通最小二乘法估计虽然是无偏和一致的,但其不再是最有效的估计。因此一般用广义最小二乘法(GLS)对随机影响模型进行估计。
1)平衡数据
对于广义最小二乘法,主要是求转换矩阵。在NT个观测值的扰动项方差矩阵为:
,所以有
(1)成分方差和已知的情形
由于有
(16.4.3)
其中:。因此有
(16.4.4)
当成分方差和已知时,可以求出模型(16.4.2)的参数的GLS估计量:
(16.4.5)
其中:,对应的协方差阵为
(16.4.6)
可见,当成分方差和已知时,可以很容易计算参数的GLS估计量。
(2)当成分方差和未知时
在实际分析中,成分方差几乎是未知的。因此,需要采用可行广义最小二乘法(feasible generalized least squared,FGLS)对模型进行估计,即先利用数据求出未知成分方差的无偏估计,然后再进行广义最小二乘估计。在计算成分方差的估计值时,经常使用的是Swamy-Arora方法,即利用内部回归和均值回归的残差计算成分方差的估计值。虽然该方法在估计的过程中有一些多余模型的计算,但其成分方差估计量的表达式却相对简单,各成分方差的无偏估计分别为
(16.4.7)
(16.4.8)
其中:和为参数的协方差估计,分别由固定影响模型的式子(16.2.12)和(16.2.13)得到。
有了成分方差的无偏估计后,便可得到未知矩阵的相应估计:
(16.4.9)
进而得到参数的FGLS估计:
(16.4.10)
个体随机影响相应的估计为:
(16.4.11)
其中:
2)非平衡数据的随机影响模型
在随机影响模型中,如果使用的数据是非平衡数据,则需要对GLS估计过程中的转换矩阵和FGLS估计过程中的成分方差估计做相应的修正。
如果设第i个截面成员的观测数据个数为Ti,则转换矩阵V-1的第i个对角分块为:
(16.4.12)
成分方差的相应估计分别为:
(16.4.13)
(16.4.14)
获得成分方差的估计后,根据式(16.4.10)和(16.4.11)可以得到参数和个体影响的估计。
16.4.2随机效应变截距模型软件估计
1)最小二乘估计
假定该模型是个体随机影响模型,在Eviews软件操作中,若是用pool数据形式,在Specification页面中Fixed and Random的Cross-section选择Random,其估计设定如下:
图16.4.1
在该页面中选择随机效应设定后,GLS的Weights便不能再设定了,从上面的图可以看出Weights已经变成了灰色。
然后,在options页面的Weighting options处Random effects选择Swamy-Arora方法计算成分方差的估计值,该方法也是Eviews默认的方法,当然还可以选择其他的方法,比如Wallace-Hussain和Wansbeek-Kapteyn:
图16.4.2
点击“确定”后,得到的估计结果如下:
图16.4.3
结果顶端显示了模型使用的方法以及样本的相关信息,还有计算成分方差的相关方法,跟固定效应模型一样,在显示各个参数的估计外,各个截面随机效应截距对总体均值的偏离也依次罗列了出来,在估计结果的下半部分,我们可以看到截面误差分量的标准分离分别是84.201。并且能看到RHO值的组成百分比,以截面误差分量的值为例,RHO计算截面误差分量占0.7180(0.7180=84.200952/(84.200952+52.767972))。
图16.4.4
若是在workfile里面建立面板结构的数据进行估计时,则估计设定基本与前面固定效应模型一样,只是在panel options页面中Fixed and Random的Cross-section选择Random,在options页面的Weighting options处Random effects选择Swamy-Arora方法计算成分方差的估计值,该方法也是Eviews默认的方法,与pool一样也还可以选择其他的方法,比如Wallace-Hussain和Wansbeek-Kapteyn;然后点击“确定”后,输出结果如下:
图16.4.5
估计的结果与pool一样,只是没有显示各个截面的随机效应。
当然随机效应模型还有包含时期随机效应的模型和包含个体时期随机效应的模型,其估计方法与个体随机效应模型类似。
2)二阶段最小二乘估计
(1)两阶段最小二乘估计原理
在随机影响变截距模型中,由于同一个个体、不同时期的随机误差项之间存在一定的相关性,当随机误差项与解释变量相关时,普通的二阶段(TSLS)估计虽然仍是无偏和一致估计,但其不是最有效的,需要采用广义二阶段最小二乘(GTSLS)对模型进行估计。
广义二阶段最小二乘法是广义最小二乘法的二阶段法。该方法首先用Zi为工具变量对模型进行二阶段最小二乘估计,根据前面固定效应模型中求出和。然后根据估计出来的方程方差对成分方程进行估计。成分方差相应估计为:
(16.4.15)
(16.4.16)
有了成分方差的无偏估计后,便可以得到未知矩阵
(16.4.17)
其中:
进而得到参数相应的GTSLS估计量为:
(16.4.18)
其中:,,
个体随机影响的估计为
, (16.4.19)
其中:
(2)软件操作
对随机效应模型进行二阶段最小二乘法估计,在pool数据窗口主菜单中选择Estimation,出来pool Estimation设定窗口,在specification页面Method选择TSLS(Two-Stage Least Squares(and AR)),然后在进行类似的设定,如图:
图16.4.6
在Instrument list页面填入与估计参数一样多的工具变量,与固定效应模型的二阶段最小二乘法估计类似:
图16.4.7
在options页面选择方差成分计算方法,然后点击“确定”,得到估计结果如下:
图16.4.8
估计结果的上半部分显示估计的方法为TSLS或者工具变量法,由于用了滞后一期的自变量作为工具变量,样本数减少了10,并且清楚的显示了设定的三个工具变量,在下面的估计结果中Instrument rank也显示了工具变量的个数为3。
图16.4.9
16.4.3随机效应模型和固定效应模型的Hausman检验
前面我们介绍了两种变截距模型的估计方法,在建模的时候是采用固定效应模型还是随机效应模型,主要取决于对截距的不同设定。如果把截距作为待估参数,无论是随机变量还是固定常数,采用虚拟变量最小二乘法估计得到的结果都是无偏估计量。若是随机变量且与解释变量不相关,建立随机效应模型得到的估计值是最佳线性无偏一致估计量;但是当与解释变量相关时,得到的参数估计不仅是有偏的而且非一致的,因此正确判断模型类型很重要。
对于是固定效应还是随机效应的选择,从经验上来说,但不能把观测个体当作从总体中随机抽样的结果时,通常把截距项看作是待估的常数,使用固定效应模型,否则使用随机效应模型。但这种经验方法有时可能会导致估计结果不够精确,Hausman(1978)年提出一种检验这个假设的方法,该检验是比较固定效应和随机效应估计的参数而判断选哪种模型。
该检验的统计量为:
(16.4.20)
其中:,是分别利用固定效应的LSDV模型和随机效应模型可行广义最小二乘法得到回归系数估计值;为LSDV模型或者随机效应模型经过估计后得到的协方差矩阵。该统计量服从自由度为k的分布,这里k的回归量的个数。在给定的显著水平下,如果该统计量H大于临界值,则拒绝原假设,选择固定效应模型。否则接受原假设,选择随机效应模型。
Hausman检验的思想是除非统计值拒绝原假设,否则使用随机效应模型。则其原假设是使用随机效应模型。Eviews提供了检验固定效应和随机效应模型的方法,但做检验前要先进行模型估计。
对随机效应模型进行检验,先进行随机效应模型估计,然后在估计结果窗口中点击View/Fixed/Random Effects Testing/Correlated Random Effects-Hausman Test,Eviews便自动对固定效应进行估计,然后计算统计值,显示结果和辅助估计的方程。
例如对前面的个体随机效应模型进行检验,首先进行随机效应估计后,然后进行Hausman检验,得到的结果如下:
图16.4.10
从cross-section random的Chi-Sq统计量的值以及其相伴概率,可以看出,不能拒绝原假设,接受选用随机效应模型。在该统计量的下面是除了方差不同,显示了固定效应的系数估计值和随机效应估计值的比较,以及两者没有不同的假设的p值。注意,估计的方差可能为负值,以致概率值不能计算。
在结果的下半部分是相关的固定效应模型估计:
图16.4.11
16.5变系数回归模型
前面讨论的是变截距模型,并假定不同个体的解释变量的系数是相同的,然而在现实中变化的经济结构或者不同的经济背景等不可观测的反映个体差异的因素会导致经济结构的参数随着横截面个体的变化而变化,即解释变量对被解释变量的影响要随着截面的变化而变化。这时要考虑系数随着横截面个体的变化而变化的变系数模型。
16.5.1变系数回归模型原理
变系数模型一般形式如下:
(16.5.1)
其中:为因变量,为维解释变量向量,N为截面成员个数,T为每个截面成员的观测时期总数。参数表示模型的常数项,为对应于解释变量的系数向量。随机误差项相互,且满足零均值、等方差的假设。
在式子(16.5.1)中所表示的变系数模型中,常数项和系数向量都是随着截面个体变化而变化,因此将该模型改写为:
, (16.5.2)
其中:,
模型的矩阵形式为:
(16.5.3)
其中:;;;,,,
类似于变截距模型,根据系数变化的不同形式,变系数模型中系数的变化,即解释变量对被解释变量的影响也分固定影响和随机影响两类,相应的变系数模型也分为固定影响变系数模型和随机影响变系数模型两类,前者也被称为似不相关回归模型,后者包括Swamy随机系数模型和Hsiao模型等,本书只介绍Swamy随机系数模型。
16.5.2变系数模型分类及软件估计
1)模型分类
在Eviews软件中pool面板数据建立的方程组中,依据其解释变量的系数向量对所有个体和时期的不同而有如下的三种极端情形:
(1)对所有的截面和时期,是个常数且相同,其模型形式如下:
(16.5.4)
这里在向量中有k个系数,每个都对应一个解释变量。在软件操作中,就是将所有解释变量都填入common coefficients。
图16.5.1
(2)依据所有的截面的不同而不同,每个截面有一个的系数,不同截面系数不一样,说明个体成员间的差异而导致各个解释变量的系数而不同,但这里不随时期的不同而不同,模型形式如下:
(16.5.5)
在软件操作中,就是将所有解释变量全部填入cross-section specific。
图16.5.2
然后点击“确定”,得到的估计结果如下:
图16.5.3
(3)依据所有时期的不同而不同,每个时期变量有一个不同的系数,不随截面不同而变化,说明结构变化而导致各个解释变量的系数而不同,模型形式如下:
(16.5.6)
图16.5.4
(4)在实际的应用中,我们常常是将上面的三种情形混合着用,比如有的数据中某些变量既有结构的变化,但其他的变量却随个体而变化,我们就可以将(2)和(3)混合着用。因此面板数据的分类非常复杂,我们推广到更一般情形下,将解释变量分类上述三种(不随截面和时点变化的解释变量、只随截面变量的解释变量和只随时点变化的解释变量),模型为:
(16.5.7)
本章除了介绍一般的变系数模型外,后两节专门介绍似不相关回归和swamy模型的相关理论。
16.5.3似不相关回归模型
在固定影响变系数模型中,系数向量是跨截面变化的常数向量,引向当不同个体之间的随机误差项不相关时,固定影响变系数模型的估计就简化为对单个的截面分布估计各截面单方程的系数,但在实际生活中这样面板数据的建立也就没意义了。因此,一般讨论最多的是不同个体之间的随机误差项相关的固定影响变系数模型。
1)模型理论
如果模型(16.5.1)满足如下的假设,我们则称之为似不相关回归模型(seemingly unrelated regression models,SUR)。
①对于i=1,2,…,N,;②对于i=1,2,…,N,;
③对于i,j=1,2,…,N,;④对于i=1,2,…,N,在重复抽样中是固定的。
随机误差项的方差协方差矩阵为:
(16.5.8)
其中,,且
因此,在同一时刻,不同个体的被解释变量只受到共同不可观测或不可度量的因素的影响时,可以利用似不相关回归模型估计。一般称个体间的这种相关性为同期相关性(contemporaneous correlation)。在实际经济生活中,有许多经济问题具有同期相关性。例如,由于货币、要素价格和地缘经济因素等不易观测或度量的因素的共同影响,同一个国家不同商品的需求量、不同企业的投资和和不同地区的消费水平等经济变量表现出显著的同期相关性。在处理这类经济问题时,可以将模型设定为似不相关回归模型。
(1)误差项的协方差矩阵已知
模型系数可以利用GLS方法估计,即
(16.5.9)
在上面的假设下,如果模型使得是有限非退化矩阵,则估计量是的最佳线性无偏一致渐近正态分布的估计量。并且,如果误差项向量服从多元正态分布,则是的最小方差线性无偏的和渐近有效的估计量。
(2)协方差矩阵未知
当误差项协方差矩阵未知时,首先要先对进行估计。Zellner(1962)提出了两种估计的方法,其一是利用模型(16.5.3)中每个个体的回归模型的残差估计和,其二是利用模型(16.5.3)系统的OLS残差估计和。
(16.5.10)
(16.5.11)
于是,若存在,则的FGLS方法估计量,即
(16.5.12)
通常,将该估计量称为ZEF估计。
另外,Zellner还提出了一种迭代算法,称为ITERZEF估计。其计算过程是:根据式子(16.5.12)计算模型(16.5.3)的ZEF估计量;然后依据ZEF估计量,利用(16.5.10)和(16.5.11)再次估计;利用的新估计量,根据(16.5.12)再次进行计算模型(16.5.3)的ZEF估计量。重复上面三个步骤,直到ZEF估计量相对误差较小时,结束迭代过程,最终得到的ZEF估计量即为的ITERZEF估计量。
2)Eviews估计过程
(1)在pool窗口中,点击object,建立名为SUR的新系统(system):
图16.5.5
(2)点击OK,设定如下的SUR模型系统,
图16.5.6
(3)点击Estimate,估计SUR模型系统(如图所示),在Estimation method中选择seemingly Unrelated Regression方法,其他保持Eviews默认的设置,
图16.5.7
(4)点击“确定”,估计SUR模型,结果输出如下:
图16.5.8
16.5.4 Swamy随机系数模型
似不相关回归模型的系数被假定为常数项,而有些经济问题中,系数向量假定为跨截面变化的随机值向量,其一个基本的假定是系数向量具有固定均值和协方差矩阵的随机向量:
(16.5.13)
其中:是跨截面变化的系数的均值部分向量,是均值为零、具有固定协方差矩阵的随机向量,表示变化系数的随机部分。
随机系数模型统一写成如下形式:
, (16.5.14)
其中:,
Swamy(1970)提出满足如下的假定:
①;②;
③;
④
此时,模型(16.5.14)的矩阵形式改写为:
(16.5.15)
其中:,,
是的分块对角矩阵。复合误差项的协方差矩阵为分块对角阵,即有
(16.5.17)
其中:,
同随机影响变截距模型类似,在swamy(1970)假设下,如果收敛于非零常数矩阵,则通过对的简单回归而得到参数的估计是无偏和一致的,但其不是最有效的。
(16.5.18)
其中:,
从式子(16.5.18)可以看出参数的GLS估计是各截面个体上OLS估计的矩阵加权平均,权重同各自的协方差成正比。如果各随机误差项的方差(和)已知,根据式子(16.5.18)可以看容易地计算出参数的GLS估计量。然而,在实际分析中,这两项方差几乎都是未知的,因此需要采用可行广义最小二乘估计法(FGLS)对模型进行估计,即先利用数据求出未知方差的无偏估计,然后再进行广义最小二乘估计。
在使用的Swamy-Arora方法中,给出的两项方差的无偏估计为:
(16.5.19)
其中:是的估计值。
(16.5.20)
其中:,为对截面个体i所对应的单方程进行OLS估计后得到的残差项。
有了两项方差的无偏估计后,便可以得到未知矩阵的相应估计
(16.5.21)
对于由式子(16.5.13)给出的含有随机部分的变化的系数,利用GLS法便可以很容易得到的FGLS估计为:
(16.5.22)
16.6案例分析
例如:研究我国省际的投资软环境对对外直接投资的影响,必然要考虑多方面的因素,因此本文的模型如下:,
其中,为i地区第t年非金融对外直接投资流量,
是软环境相关变量,
为i地区第t年基本医疗保险参保人数,为i地区第t年从业人员受高等教育比例,为i地区第t年专利申请数,为i地区第t年所有制结构情况。
为其他的可控制变量,反正地区的其他特征。
为i地区第t年货物周转量,为i地区第t年人均国内生产值,为i地区第t年从业人员总量,为i地区第t年进出口总额,代表了模型中被遗漏的影响对外直接投资的因素的影响。
首先对数据进行Hausman检验,那么检验之前先对模型进行截面随机效应估计,然后再进行检验,检验结果如下:
图16.6.1
从上面的Hausman检验结果中Cross-section random在1%的显著性水平下拒绝了原假设,则该模型选择固定效应模型。然后对模型进行固定效应估计,其结果如下:
图16.6.2
上面的估计结果自变量的系数中,只有GDP和交通是显著,其余都不显著的。GDP与对外之间投资是显著的负相关的,交通与对外之间投资显著正相关的,国有和集体企业的固定投资比重与对外直接投资是负向关系,从业人员受教育程度与对外直接投资是显著正相关的,专利申请量与对外直接投资是显著的正相关的,基本医疗保险参保人数对对外直接投资的影响是负向的。
而各地区对外直接投资差异的ai的相应估计值由表16.6.1给出:
表16.6.1
| 地区i | ai估计值 | 地区i | ai估计值 |
| 北京 | 311632.3 | 湖北 | -56652 |
| 天津 | -20945.5 | 湖南 | -118441 |
| 河北 | -156687 | 广东 | -375258 |
| 山西 | 56966.22 | 广西 | -44999.5 |
| 内蒙古 | 116295.2 | 海南 | 162202 |
| 辽宁 | -53.8 | 重庆 | 46677.69 |
| 吉林 | 1151.1 | 四川 | -179195 |
| 黑龙江 | 115617.7 | 贵州 | -17687.4 |
| 上海 | 212053 | 云南 | -1963.6 |
| 江苏 | -191043 | 183834.6 | |
| 浙江 | -73073.4 | 陕西 | 18778.93 |
| 安徽 | -111616 | 甘肃 | 59751.53 |
| 福建 | 824.32 | 青海 | 166260.7 |
| 江西 | 11444.23 | 宁夏 | 161460.4 |
| 山东 | -271376 | 119375.7 | |
| 河南 | -270656 |
本章主要讨论静态面板的模型的相关理论及软件操作。首先从模型的基本原理开始,模型分类,模型的选择。然后介绍了变截距模型的相关理论和软件操作。其中,变截距模型又分为固定效应变截距模型和随机效应变截距模型,固定效应模型中包括了平衡数据和非平衡数据的建模,以及几种软件操作中的模型建立,还介绍了固定效应模型的广义最小二乘法和二阶段最小二乘法的原理和软件操作;另外还介绍了随机影响模型的基本原理和软件估计操作过程;还有固定效应模型和随机效应模型选择的Hausman检验原理及操作。在现实中变化的经济结构也会随着节目个体变化而变化,因此本章最后介绍了变系数模型的相关理论。根据系数变化的不同形式,变系数模型也分为固定影响变系数模型和随机影响变系数模型两类,前者也被称为似不相关回归模型,后者包括Swamy随机系数模型和Hsiao模型等,本章只介绍似不相关回归模型和Swamy随机系数模型。
