文章目录
1 GMM引入2 GMM假定2.1 线性假设2.2 渐进独立平稳2.3 工具变量正交性2.4 满秩条件2.5 鞅差分序列2.6 四阶矩条件3 GMM推导4 大样本性质4.1 一致性4.2 渐进正态性5 最优权重矩阵与估计6 同方差情形7 过度识别检验8 非正交性识别9 自相关情形1 GMM引入
线性回归模型满足如下线性形式
yi=xi′β+εiy_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi=xi′β+εi
若解释变量与随机扰动项满足Cov(xik,εi)≠0Cov(x_{ik},\varepsilon_i)\ne 0Cov(xik,εi)=0,则表明解释变量xikx_{ik}xik具有内生性,或xikx_{ik}xik为内生解释变量。这里i,ki,ki,k分别为观测次数与自变量标识。解决上述问题的常用方法时寻找一个工具变量zzz,使得满足以下两个条件:
{Cov(x,z)≠0Cov(z,ε)=0\left\{\begin{array}{l} Cov(x,z)\ne 0\\ Cov(z,\varepsilon)=0\\ \end{array}\right. {Cov(x,z)=0Cov(z,ε)=0
第一个条件称为相关性,即工具变量与内生解释变量具有相关性(相关性越强越好);第二个条件为排斥性,即工具变量与扰动项不存在相关性。利用两阶段最小二乘法方法(2SLS)进行估计可得到一致估计量,具体思想为:通过内生解释变量对工具变量进行回归,将内生解释变量分解为不与随机扰动项相关的外生解释变量部分,与扰动项相关的内生部分;由于外生解释变量部分是关于工具变量的线性函数,因此用外生解释变量部分代替原解释变量进行回归,从而得到一致的估计量。当然,如果第一个条件,即相关性越强,则分解后的外生解释变量包含原始解释变量的信息越多,从而提高估计效率;相反,若相关性较弱,则外生解释变量包含原始变量的信息越少,估计效率大大下降。因此,需要寻找更多的工具变量,利用内生解释变量对这些工具变量进行回归,则分离后的外生解释变量包含原始内生解释变量的信息越多,估计效率越高。通过比较内生解释变量与工具变量的个数,
若内生解释变量个数 > 外生解释变量个数,则待估参数不可识别(矩条件(方程)个数少于参数个数)若内生解释变量个数 = 外生解释变量个数,则待估参数恰好识别(矩条件(方程)个数等于参数个数)若内生解释变量个数 < 外生解释变量个数,则待估参数过度识别(矩条件(方程)个数大于参数个数)
第一个情况无法估计参数,第二种情况刚好能找到一组参数解,第三种情况存在无数组解。第二种情况虽然能识别参数,但每个内生解释变量都对应一个外生变量,分解的出外生解释变量不一定足够包含内生解释变量的大部分信息;第三种情况虽然有更多的工具变量,但估计参数存在无穷组解。一种方法是将多个工具变量线性组合为一个工具变量,此时回到恰好识别情形。线性组合也包括无穷种,根据已有证明,在球形扰动假设条件下,2SLS提供的工具变量的线性组合是最有效率的。2SLS尽管能解决过度识别情形,但却是在球形扰动条件下成立,即扰动项方程协方差矩阵不存在自相关以及同方差假设。为为了能在非球型扰动假设条件下实现过度识别情形的估计,需要引入GMM估计方法。GMM与2SLS关系就如同GLS与与OLS的关系;因为前者都不受到球形扰动假设约束,后者皆在球形扰动假设下成立。
2 GMM假定
2.1 线性假设
线性回归模型满足如下线性形式
yi=xi′β+εiy_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi=xi′β+εi
其中xi=(xi1,xi1,…xik)′\boldsymbol x_i = (x_{i1},x_{i1},\dots x_{ik})'xi=(xi1,xi1,…xik)′为第iii次观测。
2.2 渐进独立平稳
被解释变量yiy_iyi、解释变量xi\boldsymbol x _ixi与工具变量zi\boldsymbol z_izi(维度是LLL)构成的随机过程wi=unique{yi,xi,zi}\boldsymbol w_i =unique \{y_i,\boldsymbol x _i,\boldsymbol z_i\}wi=unique{yi,xi,zi}为渐进独立平稳过程;其中unique表示这些变量不存在重叠。
2.3 工具变量正交性
既然是工具变量,至少需要符号前定变量条件,即工具变量与同期扰动项不相关;设LLL维向量gi=ziεi\boldsymbol g_i = \boldsymbol z_i \varepsilon_igi=ziεi,其期望为E(gi)=E(ziεi)=0E(\boldsymbol g_i) = E(\boldsymbol z_i \varepsilon_i)=0E(gi)=E(ziεi)=0
2.4 满秩条件
矩阵E(zixi′)E(\boldsymbol z_i \boldsymbol x_i')E(zixi′)列满秩,即rank(E(zixi′))=Krank(E(\boldsymbol z_i \boldsymbol x_i')) =Krank(E(zixi′))=K这里L>KL>KL>K,并记ΣZX≡E(zixi′)\boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(z_{i} \boldsymbol{x}_{i}^{\prime}\right)ΣZX≡E(zixi′)
2.5 鞅差分序列
gi\boldsymbol g_igi为鞅差分序列,其协方差矩阵
S≡E(gigi′)=E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} z_{i}^{\prime}\right) S≡E(gigi′)=E(εi2zizi′)
可逆
2.6 四阶矩条件
关于解释变量xxx的四阶矩条件E[(xikzij)2]\mathrm{E}\left[\left(x_{i k} z_{i j}\right)^{2}\right]E[(xikzij)2]存在其有限,∀i,j,k\forall i,j,k∀i,j,k
3 GMM推导
设总体矩条件
E(gi)=E(ziεi)=0\mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(z_{i} \varepsilon_{i}\right)=\mathbf{0} E(gi)=E(ziεi)=0
的样本矩条件
gn(β^)≡1n∑i=1nzi(yi−xi′β^)=0\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) \equiv \frac{1}{n} \sum_{i=1}^{n} z_{i}\left(y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}\right)=\mathbf{0} gn(β^)≡n1i=1∑nzi(yi−xi′β^)=0
其中zi\boldsymbol z_izi的维度为LLL,参数β^\hat {\boldsymbol \beta}β^的维度为KKK,这里工具变量个数大于内生解释变量个数,即L>KL>KL>K。此时无法找到唯一解β^\boldsymbol{\hat\beta}β^,使得gn(β^)=0\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) =0gn(β^)=0成立。我们将gn(β^)\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})gn(β^)转为二次型:如果存在解β^\boldsymbol{\hat\beta}β^使得gn(β^)\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})gn(β^)无限接近0,则二次型
(gn(β^))1×L′(gn(β^))L×1→0\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime}_{1 \times L}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)_{L \times 1} \to 0 (gn(β^))1×L′(gn(β^))L×1→0
二次型还需要一个依赖于样本的随机正定对称矩阵W^L×L\hat W_{L \times L}W^L×L,且在大样本条件下,Plimn→∞W^=WP \lim_{n\to \infty} \hat{W} =WPlimn→∞W^=W,WWW为非随机的对称正定矩阵。定义最小化目标函数
minβ^J(β^,W^)≡n(gn(β^))′W^(gn(β^))\min _{\hat{\beta}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) \equiv n\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right) β^minJ(β^,W^)≡n(gn(β^))′W^(gn(β^))
其中目标函数一定大于0,而nnn是为了方便统计计算,不影响最小值点;定义GMMGMMGMM估计量为该问题的最优解,则
β^GMM(W^)≡argminβ^J(β^,W^)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}}) \equiv \underset{\hat{\boldsymbol{\beta}}}{\operatorname{argmin}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) β^GMM(W^)≡β^argminJ(β^,W^)
显然β^\boldsymbol {\hat \beta}β^是关于权重矩阵W^\hat WW^的函数,因此选择不同WWW对β^\boldsymbol {\hat \beta}β^的估计效率也存在差异。W^\hat WW^的作用是对LLL个矩条件进行赋权,不同矩条件的强弱不同,则对应的方差较小(矩阵S=E(gigi′)\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)S=E(gigi′)对角线元素),此时应在W^\hat WW^种赋予更大的权重。当然最简单的方法将W^\hat WW^视为单位阵,即不同矩条件的影响相同。下面是GMMGMMGMM估计量推导过程:记SZX≡1n∑i=1nzixi′,SZy≡1n∑i=1nziyi\boldsymbol{S}_{\mathrm{ZX}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} \boldsymbol{x}_{i}^{\prime}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} y_{i}SZX≡n1∑i=1nzixi′,SZy≡n1∑i=1nziyi,则最小化目标函数,
J(β^,W^)=n(SZy−SZXβ^)′W^(SZy−SZXβ^)=n(SZy′−β^′SZX′)W^(SZy−SZXβ^)=n(SZy′W^−β^′SZX′W^)(SZy−SZXβ^)=n(SZy′W^SZy−β^′SZX′W^SZy−SZy′W^SZXβ^+β^′SZX′W^SZXβ^)=n(SZy′W^SZy−2β^′SZX′W^SZy+β^′SZX′W^SZXβ^)\begin{aligned} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})&=n\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime}\right) \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{ZX} \hat{\boldsymbol{\beta}}\right)\\ &=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime} \hat{\boldsymbol{W}}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\right)\left(\boldsymbol{S}_{\mathrm{Zy}}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & =n\left(\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & = n\left(\boldsymbol{S}_{Z y}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-2 \hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right) \end{aligned} J(β^,W^)=n(SZy−SZXβ^)′W^(SZy−SZXβ^)=n(SZy′−β^′SZX′)W^(SZy−SZXβ^)=n(SZy′W^−β^′SZX′W^)(SZy−SZXβ^)=n(SZy′W^SZy−β^′SZX′W^SZy−SZy′W^SZXβ^+β^′SZX′W^SZXβ^)=n(SZy′W^SZy−2β^′SZX′W^SZy+β^′SZX′W^SZXβ^)
其中
(β^′SZX′W^SZy)′=Sxy′W^SZXβ^\left(\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}\right)^{\prime}=\boldsymbol{S}_{xy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}} (β^′SZX′W^SZy)′=Sxy′W^SZXβ^
对向量β^\boldsymbol {\hat \beta}β^求微分得
∂J(β^,W^)∂β^=n(−2SZX′W^SZy+2SZX′W^SZXβ^)=0\frac{\partial J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})}{\partial \hat{\boldsymbol{\beta}}}=n\left(-2 \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+2 \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=0 ∂β^∂J(β^,W^)=n(−2SZX′W^SZy+2SZX′W^SZXβ^)=0
整理
SZX′W^SZXβ^=SzX′W^SZy\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}=\boldsymbol{S}_{z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy} SZX′W^SZXβ^=SzX′W^SZy
根据假定2.4以及W^\hat{W}W^正定对称,解得
β^GMM(W^)=(SZX′W^SZX)−1SZX′W^SZy\hat{\boldsymbol{\beta}}_{GMM}(\hat{\boldsymbol{W}})=\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1} \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy} β^GMM(W^)=(SZX′W^SZX)−1SZX′W^SZy
在大样本条件下(SZX′W^SZX)−1\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1}(SZX′W^SZX)−1满秩。在恰好识别 SZX\boldsymbol{S}_{\mathrm{ZX}}SZX为K×KK \times KK×K维仿阵,可逆则
β^GMM(W^)=SZX−1W^−1SZX′−1SZX′W^⏟=ISZy=SZX−1SZy=β^IV\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{S}_{Z X}^{-1} \underbrace{\hat{\boldsymbol{W}}^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}}_{=\boldsymbol{I}} \boldsymbol{S}_{Z_{y}}=\boldsymbol{S}_{Z X}^{-1} \boldsymbol{S}_{Z y}=\hat{\boldsymbol{\beta}}_{\mathrm{IV}} β^GMM(W^)=SZX−1=IW^−1SZX′−1SZX′W^SZy=SZX−1SZy=β^IV
即在恰好识别条件下,GMMGMMGMM估计量与IVIVIV估计量等价。因此只有在过度识别条件下,才能用GMMGMMGMM方法
4 大样本性质
4.1 一致性
在大样本条件下,GMM估计量
plimn→∞β^GMM(W^)=β\operatorname{plim}_{n \rightarrow \infty} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{\beta} plimn→∞β^GMM(W^)=β
收敛于总体回归参数β\boldsymbol \betaβ。证明如下:β^GMM(W^)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})β^GMM(W^)的抽样误差为
β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^(1n∑i=1nziyi)−β=(SZX′W^SZX)−1SZX′W^(1n∑i=1nzi(xi′β+εi))−β=(SZX′W^SZX)−1SZX′W^(SZXβ+1n∑i=1nziεi)−β=(SZX′W^SZX)−1SZX′W^g‾\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} &=\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{\mathrm{ZX}}\right)^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i} y_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i}\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}\right)\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{\mathrm{ZX}} \boldsymbol{\beta}+\frac{1}{n} \sum_{i=1}^{n} z_{i} \varepsilon_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} \end{aligned} β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^(n1i=1∑nziyi)−β=(SZX′W^SZX)−1SZX′W^(n1i=1∑nzi(xi′β+εi))−β=(SZX′W^SZX)−1SZX′W^(SZXβ+n1i=1∑nziεi)−β=(SZX′W^SZX)−1SZX′W^g
其中g‾≡1n∑i=1ngi,gi≡ziεi\overline{\boldsymbol{g}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{g}_{i}, \boldsymbol{g}_{i} \equiv \boldsymbol{z}_{i} \varepsilon_{i}g≡n1∑i=1ngi,gi≡ziεi;(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1;SZX′W^⟶pΣZX′W\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \stackrel{p}{\longrightarrow} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W}SZX′W^⟶pΣZX′W;g‾⟶pE(gi)=E(ziεi)=0\overline{\boldsymbol{g}} \stackrel{p}{\longrightarrow} \mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(\boldsymbol{z}_{i} \varepsilon_{i}\right)=\mathbf{0}g⟶pE(gi)=E(ziεi)=0;故
β^GMM(W^)−β⟶p0\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} \stackrel{p}{\longrightarrow} \mathbf{0} β^GMM(W^)−β⟶p0
4.2 渐进正态性
在假定2.5(鞅差分序列假定)条件下,
n(β^GMM−β)⟶dN(0,Avar(β^GMM))\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}-\boldsymbol{\beta}\right) \stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right) n(β^GMM−β)⟶dN(0,Avar(β^GMM))
其中
Avar(β^GMM)=(ΣZX′WΣZX′)−1ΣZXWSWΣZX(ΣZX′WΣZX)−1\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}^{\prime}\right)^{-1} \boldsymbol{\Sigma}_{Z X} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\right)^{-1} Avar(β^GMM)=(ΣZX′WΣZX′)−1ΣZXWSWΣZX(ΣZX′WΣZX)−1
S=E(gigi′)=E(εi2zizi′),ΣZX≡E(zixi′)\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol z_{i}^{\prime}\right), \quad \boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol{x}_{i}^{\prime}\right) S=E(gigi′)=E(εi2zizi′),ΣZX≡E(zixi′)
证明如下:抽样误差、
β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^g‾\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^g
故
n(β^GMM(W^)−β)=(SZX′W^SZX)−1SZX′W^(ng‾)\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}(\sqrt{n} \overline{\boldsymbol{g}}) n(β^GMM(W^)−β)=(SZX′W^SZX)−1SZX′W^(ng)
在假定2.5,利用中心极限定理
ng‾⟶dN(0,S)\sqrt{n} \overline{\boldsymbol{g}} \stackrel{d}{\longrightarrow} N(\mathbf{0}, \boldsymbol{S}) ng⟶dN(0,S)
这里S≡E(gigi′)=E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime}\right)S≡E(gigi′)=E(εi2zizi′);于是
n(β^GMM(W^)−β)⟶dN(0,Avar(β^GMM))\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)\stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right) n(β^GMM(W^)−β)⟶dN(0,Avar(β^GMM))
由于(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1;SZX′W^⟶pΣZX′W\boldsymbol{S}_{Z X}^{\prime} \hat{W} \stackrel{p}{\longrightarrow} \Sigma_{Z X}^{\prime} \boldsymbol{W}SZX′W^⟶pΣZX′W;故
Avar(β^GMM)=(ΣZX′WΣZX)−1ΣZX′WSWΣZX(ΣZX′WΣZX)−1\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} Avar(β^GMM)=(ΣZX′WΣZX)−1ΣZX′WSWΣZX(ΣZX′WΣZX)−1
为夹心估计量。
5 最优权重矩阵与估计
在假定2.1,2.2与2.6条件下,对于β\boldsymbol \betaβ的任意一致估计量β^\boldsymbol{ \hat \beta}β^,其残差为ei≡yi−xi′β^e_{i} \equiv y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}ei≡yi−xi′β^;则s2≡1n∑i=1nei2s^{2} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2}s2≡n1∑i=1nei2是总体回归函数随机扰动项方差σ2≡E(εi2)\sigma^{2} \equiv \mathrm{E}\left(\varepsilon_{i}^{2}\right)σ2≡E(εi2)的一致估计量;且S^≡1n∑i=1nei2zizi′\hat{S} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} z_{i} z_{i}^{\prime}S^≡n1∑i=1nei2zizi′也是S≡E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\varepsilon_{i}^{2} z_{i} z_{i}^{\prime}\right)S≡E(εi2zizi′)的一致估计量。经证明,使Avar(β^GMM)\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)Avar(β^GMM)最小化的最优权重矩阵即为
W^=S^−1\hat{\boldsymbol{W}}=\hat{\boldsymbol{S}}^{-1} W^=S^−1
为了得到最优权重矩阵,需要得到关于β\boldsymbol \betaβ的一致估计量。显然两阶段最小二乘法(2SLS)能得到参数一致估计量(尽管可能不是最优效率的);并计算残差估计权重矩阵
W^=S^−1≡(1n∑i=1nei2zizi′)−1\hat{\boldsymbol{W}} = \hat{\boldsymbol{S}}^{-1} \equiv (\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime})^{-1} W^=S^−1≡(n1i=1∑nei2zizi′)−1
将W^\hat{\boldsymbol{W}}W^代入目标函数最小化J(β^,S^−1)J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^,S^−1),即可得到β^GMM(S^−1)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\hat{\boldsymbol{S}}^{-1}\right)β^GMM(S^−1)。上述方法称为两步GMM;另一种方法在两步GMM基础上得到的样本残差再次作为权重矩阵W^\hat{\boldsymbol{W}}W^的估计量,最小化目标函数J(β^,S^−1)J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^,S^−1)直至参数收敛为止。
6 同方差情形
GMM估计适合非球形扰动假设(异方差与自相关)情形,对于同方差情形E(εi2∣zi)=σ2>0\mathrm{E}\left(\varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\sigma^{2}>0E(εi2∣zi)=σ2>0,利用迭代期望公式
S≡E(zizi′εi2)=EziE(zizi′εi2∣zi)=Ezi[zizi′E(εi2∣zi)]=σ2E(zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2}\right)=\mathrm{E}_{\boldsymbol z_{i}} \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\mathrm{E}_{\boldsymbol z_{i}}\left[\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \mathrm{E}\left(\boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)\right]=\sigma^{2} \mathrm{E}\left(\boldsymbol z_{i}\boldsymbol z_{i}^{\prime}\right) S≡E(zizi′εi2)=EziE(zizi′εi2∣zi)=Ezi[zizi′E(εi2∣zi)]=σ2E(zizi′)
此时S~≡s2SZZ\tilde{\boldsymbol{S}} \equiv s^{2} \boldsymbol{S}_{Z Z}S~≡s2SZZ是S\boldsymbol SS的一致估计量,其中SZZ≡1nZ′Z\boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}SZZ≡n1Z′Z。将S~−1=(s2SZZ)−1\tilde{\boldsymbol{S}}^{-1}=\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1}S~−1=(s2SZZ)−1作为最优权重矩阵,得到
β^GMM(S~−1)=(SZX′(s2SZZ)−1SZX)−1SZX′(s2SZZ)−1SZy=(SZX′SZZ−1SZX)−1SZX′SZZ−1SZy\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z y} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z y} \end{aligned} β^GMM(S~−1)=(SZX′(s2SZZ)−1SZX)−1SZX′(s2SZZ)−1SZy=(SZX′SZZ−1SZX)−1SZX′SZZ−1SZy
其中SZX≡1nZ′X,SZZ≡1nZ′Z,SZy≡1nZ′y\boldsymbol{S}_{Z X} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}, \quad \boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y}SZX≡n1Z′X,SZZ≡n1Z′Z,SZy≡n1Z′y,故
β^GMM(S~−1)=(1nX′Z⋅n(Z′Z)−1⋅1nZ′X)−11nX′Z⋅n(Z′Z)−11nZ′y=(X′Z(Z′Z)−1Z′X)−1X′Z(Z′Z)−1Z′y≡β^2SL\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \cdot \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{y} \equiv \hat{\boldsymbol{\beta}}_{2 \mathrm{SL}} \end{aligned} β^GMM(S~−1)=(n1X′Z⋅n(Z′Z)−1⋅n1Z′X)−1n1X′Z⋅n(Z′Z)−1n1Z′y=(X′Z(Z′Z)−1Z′X)−1X′Z(Z′Z)−1Z′y≡β^2SL
在同方差假设下两步GMM估计等价于2SLS估计;此外,权重矩阵不需要第一步估计,只需令S^−1=SZZ−1\hat{\boldsymbol{S}}^{-1}=\boldsymbol{S}_{Z Z}^{-1}S^−1=SZZ−1;故2SLS也称为一步GMM
7 过度识别检验
GMM估计适用于工具变量过度识别情形(工具变量个数 > 内生解释变量个数),如果工具变量都是外生的,则目标函数J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^GMM,S^−1)距离000应该不远;反之,若某些工具变量存在内生性,目标函数J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^GMM,S^−1)可能离0的距离更远。因此J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^GMM,S^−1)可以作为过度识别的统计量:
J(β^GMM,S^−1)⟶dχ2(L−K)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) \stackrel{d}{\longrightarrow} \chi^{2}(L-K) J(β^GMM,S^−1)⟶dχ2(L−K)
其中(L−K)(L-K)(L−K)表示过度识别的约束个数。原假设为所有工具变量均外生。在同方差假设下,J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^GMM,S^−1)与Sargan统计量相同。
8 非正交性识别
如果拒绝所有变量均外生,则需要进一步识别出哪些工具变量与扰动项存在相关性或非正交性,设LLL维度的工具变量zi\boldsymbol z_izi种前L1(L1≥K)L_1(L_1 \ge K)L1(L1≥K)个工具变量满足外生性,后L−L1L-L_1L−L1个工具变量存在非正交性。分别计算LLL个工具变量与L−L1L-L_1L−L1个工具变量的JJJ统计值,并作差构造CCC统计量(或GMM距离,或Sargan差)
C≡J−J1⟶dχ2(L−L1)C \equiv J-J_{1} \stackrel{d}{\longrightarrow} \chi^{2}\left(L-L_{1}\right) C≡J−J1⟶dχ2(L−L1)
L−L1L-L_1L−L1为不满足外生性工具变量个数。
9 自相关情形
当存在自相关时(时间序列)也可以用GMM方法,在估计时采用自相关异方差稳健标准误推断即可。
-END-
参考文献
陈强.高级计量经济学[M].高等教育出版社