900字范文 > 内生性问题—广义矩估计

内生性问题—广义矩估计

时间：2019-02-16 00:17:37

相关推荐

内生性问题—广义矩估计

文章目录

1 GMM引入2 GMM假定2.1 线性假设2.2 渐进独立平稳2.3 工具变量正交性2.4 满秩条件2.5 鞅差分序列2.6 四阶矩条件3 GMM推导4 大样本性质4.1 一致性4.2 渐进正态性5 最优权重矩阵与估计6 同方差情形7 过度识别检验8 非正交性识别9 自相关情形

1 GMM引入

线性回归模型满足如下线性形式

yi=xi′β+εiy_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi=xi′β+εi

若解释变量与随机扰动项满足Cov(xik,εi)≠0Cov(x_{ik},\varepsilon_i)\ne 0Cov(xik,εi)=0，则表明解释变量xikx_{ik}xik具有内生性，或xikx_{ik}xik为内生解释变量。这里i,ki,ki,k分别为观测次数与自变量标识。解决上述问题的常用方法时寻找一个工具变量zzz，使得满足以下两个条件：

{Cov(x,z)≠0Cov(z,ε)=0\left\{\begin{array}{l} Cov(x,z)\ne 0\\ Cov(z,\varepsilon)=0\\ \end{array}\right. {Cov(x,z)=0Cov(z,ε)=0

第一个条件称为相关性，即工具变量与内生解释变量具有相关性（相关性越强越好）；第二个条件为排斥性，即工具变量与扰动项不存在相关性。利用两阶段最小二乘法方法（2SLS）进行估计可得到一致估计量，具体思想为：通过内生解释变量对工具变量进行回归，将内生解释变量分解为不与随机扰动项相关的外生解释变量部分，与扰动项相关的内生部分；由于外生解释变量部分是关于工具变量的线性函数，因此用外生解释变量部分代替原解释变量进行回归，从而得到一致的估计量。当然，如果第一个条件，即相关性越强，则分解后的外生解释变量包含原始解释变量的信息越多，从而提高估计效率；相反，若相关性较弱，则外生解释变量包含原始变量的信息越少，估计效率大大下降。因此，需要寻找更多的工具变量，利用内生解释变量对这些工具变量进行回归，则分离后的外生解释变量包含原始内生解释变量的信息越多，估计效率越高。通过比较内生解释变量与工具变量的个数，

若内生解释变量个数 > 外生解释变量个数，则待估参数不可识别（矩条件（方程）个数少于参数个数）若内生解释变量个数 = 外生解释变量个数，则待估参数恰好识别（矩条件（方程）个数等于参数个数）若内生解释变量个数 < 外生解释变量个数，则待估参数过度识别（矩条件（方程）个数大于参数个数）

第一个情况无法估计参数，第二种情况刚好能找到一组参数解，第三种情况存在无数组解。第二种情况虽然能识别参数，但每个内生解释变量都对应一个外生变量，分解的出外生解释变量不一定足够包含内生解释变量的大部分信息；第三种情况虽然有更多的工具变量，但估计参数存在无穷组解。一种方法是将多个工具变量线性组合为一个工具变量，此时回到恰好识别情形。线性组合也包括无穷种，根据已有证明，在球形扰动假设条件下，2SLS提供的工具变量的线性组合是最有效率的。2SLS尽管能解决过度识别情形，但却是在球形扰动条件下成立，即扰动项方程协方差矩阵不存在自相关以及同方差假设。为为了能在非球型扰动假设条件下实现过度识别情形的估计，需要引入GMM估计方法。GMM与2SLS关系就如同GLS与与OLS的关系；因为前者都不受到球形扰动假设约束，后者皆在球形扰动假设下成立。

2 GMM假定

2.1 线性假设

线性回归模型满足如下线性形式

yi=xi′β+εiy_i = \boldsymbol x_i^{\prime}\boldsymbol \beta + \varepsilon_i yi=xi′β+εi

其中xi=(xi1,xi1,…xik)′\boldsymbol x_i = (x_{i1},x_{i1},\dots x_{ik})'xi=(xi1,xi1,…xik)′为第iii次观测。

2.2 渐进独立平稳

被解释变量yiy_iyi、解释变量xi\boldsymbol x _ixi与工具变量zi\boldsymbol z_izi（维度是LLL）构成的随机过程wi=unique{yi,xi,zi}\boldsymbol w_i =unique \{y_i,\boldsymbol x _i,\boldsymbol z_i\}wi=unique{yi,xi,zi}为渐进独立平稳过程；其中unique表示这些变量不存在重叠。

2.3 工具变量正交性

既然是工具变量，至少需要符号前定变量条件，即工具变量与同期扰动项不相关；设LLL维向量gi=ziεi\boldsymbol g_i = \boldsymbol z_i \varepsilon_igi=ziεi，其期望为E(gi)=E(ziεi)=0E(\boldsymbol g_i) = E(\boldsymbol z_i \varepsilon_i)=0E(gi)=E(ziεi)=0

2.4 满秩条件

矩阵E(zixi′)E(\boldsymbol z_i \boldsymbol x_i')E(zixi′)列满秩，即rank(E(zixi′))=Krank(E(\boldsymbol z_i \boldsymbol x_i')) =Krank(E(zixi′))=K这里L>KL>KL>K,并记ΣZX≡E(zixi′)\boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(z_{i} \boldsymbol{x}_{i}^{\prime}\right)ΣZX≡E(zixi′)

2.5 鞅差分序列

gi\boldsymbol g_igi为鞅差分序列，其协方差矩阵

S≡E(gigi′)=E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} z_{i}^{\prime}\right) S≡E(gigi′)=E(εi2zizi′)

可逆

2.6 四阶矩条件

关于解释变量xxx的四阶矩条件E[(xikzij)2]\mathrm{E}\left[\left(x_{i k} z_{i j}\right)^{2}\right]E[(xikzij)2]存在其有限，∀i,j,k\forall i,j,k∀i,j,k

3 GMM推导

设总体矩条件

E(gi)=E(ziεi)=0\mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(z_{i} \varepsilon_{i}\right)=\mathbf{0} E(gi)=E(ziεi)=0

的样本矩条件

gn(β^)≡1n∑i=1nzi(yi−xi′β^)=0\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) \equiv \frac{1}{n} \sum_{i=1}^{n} z_{i}\left(y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}\right)=\mathbf{0} gn(β^)≡n1i=1∑nzi(yi−xi′β^)=0

其中zi\boldsymbol z_izi的维度为LLL，参数β^\hat {\boldsymbol \beta}β^的维度为KKK,这里工具变量个数大于内生解释变量个数，即L>KL>KL>K。此时无法找到唯一解β^\boldsymbol{\hat\beta}β^，使得gn(β^)=0\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}}) =0gn(β^)=0成立。我们将gn(β^)\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})gn(β^)转为二次型：如果存在解β^\boldsymbol{\hat\beta}β^使得gn(β^)\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})gn(β^)无限接近0，则二次型

(gn(β^))1×L′(gn(β^))L×1→0\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime}_{1 \times L}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)_{L \times 1} \to 0 (gn(β^))1×L′(gn(β^))L×1→0

二次型还需要一个依赖于样本的随机正定对称矩阵W^L×L\hat W_{L \times L}W^L×L，且在大样本条件下，Plim⁡n→∞W^=WP \lim_{n\to \infty} \hat{W} =WPlimn→∞W^=W,WWW为非随机的对称正定矩阵。定义最小化目标函数

min⁡β^J(β^,W^)≡n(gn(β^))′W^(gn(β^))\min _{\hat{\beta}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) \equiv n\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{g}_{n}(\hat{\boldsymbol{\beta}})\right) β^minJ(β^,W^)≡n(gn(β^))′W^(gn(β^))

其中目标函数一定大于0，而nnn是为了方便统计计算，不影响最小值点；定义GMMGMMGMM估计量为该问题的最优解，则

β^GMM(W^)≡argmin⁡β^J(β^,W^)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}}) \equiv \underset{\hat{\boldsymbol{\beta}}}{\operatorname{argmin}} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}}) β^GMM(W^)≡β^argminJ(β^,W^)

显然β^\boldsymbol {\hat \beta}β^是关于权重矩阵W^\hat WW^的函数，因此选择不同WWW对β^\boldsymbol {\hat \beta}β^的估计效率也存在差异。W^\hat WW^的作用是对LLL个矩条件进行赋权，不同矩条件的强弱不同，则对应的方差较小（矩阵S=E(gigi′)\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)S=E(gigi′)对角线元素），此时应在W^\hat WW^种赋予更大的权重。当然最简单的方法将W^\hat WW^视为单位阵，即不同矩条件的影响相同。下面是GMMGMMGMM估计量推导过程：记SZX≡1n∑i=1nzixi′,SZy≡1n∑i=1nziyi\boldsymbol{S}_{\mathrm{ZX}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} \boldsymbol{x}_{i}^{\prime}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{z}_{i} y_{i}SZX≡n1∑i=1nzixi′,SZy≡n1∑i=1nziyi，则最小化目标函数,

J(β^,W^)=n(SZy−SZXβ^)′W^(SZy−SZXβ^)=n(SZy′−β^′SZX′)W^(SZy−SZXβ^)=n(SZy′W^−β^′SZX′W^)(SZy−SZXβ^)=n(SZy′W^SZy−β^′SZX′W^SZy−SZy′W^SZXβ^+β^′SZX′W^SZXβ^)=n(SZy′W^SZy−2β^′SZX′W^SZy+β^′SZX′W^SZXβ^)\begin{aligned} J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})&=n\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime}\right) \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{Zy}-\boldsymbol{S}_{ZX} \hat{\boldsymbol{\beta}}\right)\\ &=n\left(\boldsymbol{S}_{\mathrm{Zy}}^{\prime} \hat{\boldsymbol{W}}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\right)\left(\boldsymbol{S}_{\mathrm{Zy}}-\boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & =n\left(\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-\boldsymbol{S}_{Zy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)\\ & = n\left(\boldsymbol{S}_{Z y}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}-2 \hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right) \end{aligned} J(β^,W^)=n(SZy−SZXβ^)′W^(SZy−SZXβ^)=n(SZy′−β^′SZX′)W^(SZy−SZXβ^)=n(SZy′W^−β^′SZX′W^)(SZy−SZXβ^)=n(SZy′W^SZy−β^′SZX′W^SZy−SZy′W^SZXβ^+β^′SZX′W^SZXβ^)=n(SZy′W^SZy−2β^′SZX′W^SZy+β^′SZX′W^SZXβ^)

其中

(β^′SZX′W^SZy)′=Sxy′W^SZXβ^\left(\hat{\boldsymbol{\beta}}^{\prime} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}\right)^{\prime}=\boldsymbol{S}_{xy}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}} (β^′SZX′W^SZy)′=Sxy′W^SZXβ^

对向量β^\boldsymbol {\hat \beta}β^求微分得

∂J(β^,W^)∂β^=n(−2SZX′W^SZy+2SZX′W^SZXβ^)=0\frac{\partial J(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{W}})}{\partial \hat{\boldsymbol{\beta}}}=n\left(-2 \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy}+2 \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}\right)=0 ∂β^∂J(β^,W^)=n(−2SZX′W^SZy+2SZX′W^SZXβ^)=0

整理

SZX′W^SZXβ^=SzX′W^SZy\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X} \hat{\boldsymbol{\beta}}=\boldsymbol{S}_{z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy} SZX′W^SZXβ^=SzX′W^SZy

根据假定2.4以及W^\hat{W}W^正定对称，解得

β^GMM(W^)=(SZX′W^SZX)−1SZX′W^SZy\hat{\boldsymbol{\beta}}_{GMM}(\hat{\boldsymbol{W}})=\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1} \boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Zy} β^GMM(W^)=(SZX′W^SZX)−1SZX′W^SZy

在大样本条件下(SZX′W^SZX)−1\left(\boldsymbol{S}_{ZX}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{ZX}\right)^{-1}(SZX′W^SZX)−1满秩。在恰好识别 SZX\boldsymbol{S}_{\mathrm{ZX}}SZX为K×KK \times KK×K维仿阵，可逆则

β^GMM(W^)=SZX−1W^−1SZX′−1SZX′W^⏟=ISZy=SZX−1SZy=β^IV\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{S}_{Z X}^{-1} \underbrace{\hat{\boldsymbol{W}}^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}}_{=\boldsymbol{I}} \boldsymbol{S}_{Z_{y}}=\boldsymbol{S}_{Z X}^{-1} \boldsymbol{S}_{Z y}=\hat{\boldsymbol{\beta}}_{\mathrm{IV}} β^GMM(W^)=SZX−1=IW^−1SZX′−1SZX′W^SZy=SZX−1SZy=β^IV

即在恰好识别条件下，GMMGMMGMM估计量与IVIVIV估计量等价。因此只有在过度识别条件下，才能用GMMGMMGMM方法

4 大样本性质

4.1 一致性

在大样本条件下，GMM估计量

plim⁡n→∞β^GMM(W^)=β\operatorname{plim}_{n \rightarrow \infty} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})=\boldsymbol{\beta} plimn→∞β^GMM(W^)=β

收敛于总体回归参数β\boldsymbol \betaβ。证明如下：β^GMM(W^)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})β^GMM(W^)的抽样误差为

β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^(1n∑i=1nziyi)−β=(SZX′W^SZX)−1SZX′W^(1n∑i=1nzi(xi′β+εi))−β=(SZX′W^SZX)−1SZX′W^(SZXβ+1n∑i=1nziεi)−β=(SZX′W^SZX)−1SZX′W^g‾\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} &=\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{\mathrm{ZX}}\right)^{-1} \boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i} y_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\frac{1}{n} \sum_{i=1}^{n} z_{i}\left(\boldsymbol{x}_{i}^{\prime} \boldsymbol{\beta}+\varepsilon_{i}\right)\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}\left(\boldsymbol{S}_{\mathrm{ZX}} \boldsymbol{\beta}+\frac{1}{n} \sum_{i=1}^{n} z_{i} \varepsilon_{i}\right)-\boldsymbol{\beta} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} \end{aligned} β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^(n1i=1∑nziyi)−β=(SZX′W^SZX)−1SZX′W^(n1i=1∑nzi(xi′β+εi))−β=(SZX′W^SZX)−1SZX′W^(SZXβ+n1i=1∑nziεi)−β=(SZX′W^SZX)−1SZX′W^g

其中g‾≡1n∑i=1ngi,gi≡ziεi\overline{\boldsymbol{g}} \equiv \frac{1}{n} \sum_{i=1}^{n} \boldsymbol{g}_{i}, \boldsymbol{g}_{i} \equiv \boldsymbol{z}_{i} \varepsilon_{i}g≡n1∑i=1ngi,gi≡ziεi；(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1；SZX′W^⟶pΣZX′W\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \stackrel{p}{\longrightarrow} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W}SZX′W^⟶pΣZX′W；g‾⟶pE(gi)=E(ziεi)=0\overline{\boldsymbol{g}} \stackrel{p}{\longrightarrow} \mathrm{E}\left(\boldsymbol{g}_{i}\right)=\mathrm{E}\left(\boldsymbol{z}_{i} \varepsilon_{i}\right)=\mathbf{0}g⟶pE(gi)=E(ziεi)=0；故

β^GMM(W^)−β⟶p0\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta} \stackrel{p}{\longrightarrow} \mathbf{0} β^GMM(W^)−β⟶p0

4.2 渐进正态性

在假定2.5（鞅差分序列假定）条件下，

n(β^GMM−β)⟶dN(0,Avar⁡(β^GMM))\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}-\boldsymbol{\beta}\right) \stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right) n(β^GMM−β)⟶dN(0,Avar(β^GMM))

其中

Avar⁡(β^GMM)=(ΣZX′WΣZX′)−1ΣZXWSWΣZX(ΣZX′WΣZX)−1\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}^{\prime}\right)^{-1} \boldsymbol{\Sigma}_{Z X} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{\mathrm{ZX}}\right)^{-1} Avar(β^GMM)=(ΣZX′WΣZX′)−1ΣZXWSWΣZX(ΣZX′WΣZX)−1

S=E(gigi′)=E(εi2zizi′),ΣZX≡E(zixi′)\boldsymbol{S}=\mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol z_{i}^{\prime}\right), \quad \boldsymbol{\Sigma}_{Z X} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol{x}_{i}^{\prime}\right) S=E(gigi′)=E(εi2zizi′),ΣZX≡E(zixi′)

证明如下：抽样误差、

β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^g‾\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \overline{\boldsymbol{g}} β^GMM(W^)−β=(SZX′W^SZX)−1SZX′W^g

故

n(β^GMM(W^)−β)=(SZX′W^SZX)−1SZX′W^(ng‾)\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)=\left(\boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \hat{\boldsymbol{W}}(\sqrt{n} \overline{\boldsymbol{g}}) n(β^GMM(W^)−β)=(SZX′W^SZX)−1SZX′W^(ng)

在假定2.5，利用中心极限定理

ng‾⟶dN(0,S)\sqrt{n} \overline{\boldsymbol{g}} \stackrel{d}{\longrightarrow} N(\mathbf{0}, \boldsymbol{S}) ng⟶dN(0,S)

这里S≡E(gigi′)=E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol{g}_{i} \boldsymbol{g}_{i}^{\prime}\right)=\mathrm{E}\left(\varepsilon_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime}\right)S≡E(gigi′)=E(εi2zizi′)；于是

n(β^GMM(W^)−β)⟶dN(0,Avar⁡(β^GMM))\sqrt{n}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}(\hat{\boldsymbol{W}})-\boldsymbol{\beta}\right)\stackrel{d}{\longrightarrow} N\left(\mathbf{0}, \operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)\right) n(β^GMM(W^)−β)⟶dN(0,Avar(β^GMM))

由于(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1\left(\boldsymbol{S}_{\mathrm{ZX}}^{\prime} \hat{\boldsymbol{W}} \boldsymbol{S}_{Z X}\right)^{-1} \stackrel{p}{\longrightarrow}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1}(SZX′W^SZX)−1⟶p(ΣZX′WΣZX)−1；SZX′W^⟶pΣZX′W\boldsymbol{S}_{Z X}^{\prime} \hat{W} \stackrel{p}{\longrightarrow} \Sigma_{Z X}^{\prime} \boldsymbol{W}SZX′W^⟶pΣZX′W；故

Avar⁡(β^GMM)=(ΣZX′WΣZX)−1ΣZX′WSWΣZX(ΣZX′WΣZX)−1\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)=\left(\Sigma_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} \boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{S} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\left(\boldsymbol{\Sigma}_{Z X}^{\prime} \boldsymbol{W} \boldsymbol{\Sigma}_{Z X}\right)^{-1} Avar(β^GMM)=(ΣZX′WΣZX)−1ΣZX′WSWΣZX(ΣZX′WΣZX)−1

为夹心估计量。

5 最优权重矩阵与估计

在假定2.1，2.2与2.6条件下，对于β\boldsymbol \betaβ的任意一致估计量β^\boldsymbol{ \hat \beta}β^，其残差为ei≡yi−xi′β^e_{i} \equiv y_{i}-\boldsymbol{x}_{i}^{\prime} \hat{\boldsymbol{\beta}}ei≡yi−xi′β^；则s2≡1n∑i=1nei2s^{2} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2}s2≡n1∑i=1nei2是总体回归函数随机扰动项方差σ2≡E(εi2)\sigma^{2} \equiv \mathrm{E}\left(\varepsilon_{i}^{2}\right)σ2≡E(εi2)的一致估计量；且S^≡1n∑i=1nei2zizi′\hat{S} \equiv \frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} z_{i} z_{i}^{\prime}S^≡n1∑i=1nei2zizi′也是S≡E(εi2zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\varepsilon_{i}^{2} z_{i} z_{i}^{\prime}\right)S≡E(εi2zizi′)的一致估计量。经证明，使Avar⁡(β^GMM)\operatorname{Avar}\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\right)Avar(β^GMM)最小化的最优权重矩阵即为

W^=S^−1\hat{\boldsymbol{W}}=\hat{\boldsymbol{S}}^{-1} W^=S^−1

为了得到最优权重矩阵，需要得到关于β\boldsymbol \betaβ的一致估计量。显然两阶段最小二乘法（2SLS）能得到参数一致估计量（尽管可能不是最优效率的）；并计算残差估计权重矩阵

W^=S^−1≡(1n∑i=1nei2zizi′)−1\hat{\boldsymbol{W}} = \hat{\boldsymbol{S}}^{-1} \equiv (\frac{1}{n} \sum_{i=1}^{n} e_{i}^{2} \boldsymbol{z}_{i} \boldsymbol{z}_{i}^{\prime})^{-1} W^=S^−1≡(n1i=1∑nei2zizi′)−1

将W^\hat{\boldsymbol{W}}W^代入目标函数最小化J(β^,S^−1)J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^,S^−1)，即可得到β^GMM(S^−1)\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\hat{\boldsymbol{S}}^{-1}\right)β^GMM(S^−1)。上述方法称为两步GMM;另一种方法在两步GMM基础上得到的样本残差再次作为权重矩阵W^\hat{\boldsymbol{W}}W^的估计量，最小化目标函数J(β^,S^−1)J\left(\hat{\boldsymbol{\beta}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^,S^−1)直至参数收敛为止。

6 同方差情形

GMM估计适合非球形扰动假设（异方差与自相关）情形，对于同方差情形E(εi2∣zi)=σ2>0\mathrm{E}\left(\varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\sigma^{2}>0E(εi2∣zi)=σ2>0，利用迭代期望公式

S≡E(zizi′εi2)=EziE(zizi′εi2∣zi)=Ezi[zizi′E(εi2∣zi)]=σ2E(zizi′)\boldsymbol{S} \equiv \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2}\right)=\mathrm{E}_{\boldsymbol z_{i}} \mathrm{E}\left(\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)=\mathrm{E}_{\boldsymbol z_{i}}\left[\boldsymbol z_{i} \boldsymbol z_{i}^{\prime} \mathrm{E}\left(\boldsymbol \varepsilon_{i}^{2} \mid \boldsymbol z_{i}\right)\right]=\sigma^{2} \mathrm{E}\left(\boldsymbol z_{i}\boldsymbol z_{i}^{\prime}\right) S≡E(zizi′εi2)=EziE(zizi′εi2∣zi)=Ezi[zizi′E(εi2∣zi)]=σ2E(zizi′)

此时S~≡s2SZZ\tilde{\boldsymbol{S}} \equiv s^{2} \boldsymbol{S}_{Z Z}S~≡s2SZZ是S\boldsymbol SS的一致估计量，其中SZZ≡1nZ′Z\boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}SZZ≡n1Z′Z。将S~−1=(s2SZZ)−1\tilde{\boldsymbol{S}}^{-1}=\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1}S~−1=(s2SZZ)−1作为最优权重矩阵，得到

β^GMM(S~−1)=(SZX′(s2SZZ)−1SZX)−1SZX′(s2SZZ)−1SZy=(SZX′SZZ−1SZX)−1SZX′SZZ−1SZy\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime}\left(s^{2} \boldsymbol{S}_{Z Z}\right)^{-1} \boldsymbol{S}_{Z y} \\ &=\left(\boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z X}\right)^{-1} \boldsymbol{S}_{Z X}^{\prime} \boldsymbol{S}_{Z Z}^{-1} \boldsymbol{S}_{Z y} \end{aligned} β^GMM(S~−1)=(SZX′(s2SZZ)−1SZX)−1SZX′(s2SZZ)−1SZy=(SZX′SZZ−1SZX)−1SZX′SZZ−1SZy

其中SZX≡1nZ′X,SZZ≡1nZ′Z,SZy≡1nZ′y\boldsymbol{S}_{Z X} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}, \quad \boldsymbol{S}_{Z Z} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{Z}, \quad \boldsymbol{S}_{Z y} \equiv \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y}SZX≡n1Z′X,SZZ≡n1Z′Z,SZy≡n1Z′y，故

β^GMM(S~−1)=(1nX′Z⋅n(Z′Z)−1⋅1nZ′X)−11nX′Z⋅n(Z′Z)−11nZ′y=(X′Z(Z′Z)−1Z′X)−1X′Z(Z′Z)−1Z′y≡β^2SL\begin{aligned} \hat{\boldsymbol{\beta}}_{\mathrm{GMM}}\left(\tilde{\boldsymbol{S}}^{-1}\right) &=\left(\frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \cdot \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \frac{1}{n} \boldsymbol{X}^{\prime} \boldsymbol{Z} \cdot n\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \frac{1}{n} \boldsymbol{Z}^{\prime} \boldsymbol{y} \\ &=\left(\boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{X}\right)^{-1} \boldsymbol{X}^{\prime} \boldsymbol{Z}\left(\boldsymbol{Z}^{\prime} \boldsymbol{Z}\right)^{-1} \boldsymbol{Z}^{\prime} \boldsymbol{y} \equiv \hat{\boldsymbol{\beta}}_{2 \mathrm{SL}} \end{aligned} β^GMM(S~−1)=(n1X′Z⋅n(Z′Z)−1⋅n1Z′X)−1n1X′Z⋅n(Z′Z)−1n1Z′y=(X′Z(Z′Z)−1Z′X)−1X′Z(Z′Z)−1Z′y≡β^2SL

在同方差假设下两步GMM估计等价于2SLS估计；此外，权重矩阵不需要第一步估计，只需令S^−1=SZZ−1\hat{\boldsymbol{S}}^{-1}=\boldsymbol{S}_{Z Z}^{-1}S^−1=SZZ−1；故2SLS也称为一步GMM

7 过度识别检验

GMM估计适用于工具变量过度识别情形（工具变量个数 > 内生解释变量个数），如果工具变量都是外生的，则目标函数J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^GMM,S^−1)距离000应该不远；反之，若某些工具变量存在内生性，目标函数J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^GMM,S^−1)可能离0的距离更远。因此J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^GMM,S^−1)可以作为过度识别的统计量：

J(β^GMM,S^−1)⟶dχ2(L−K)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right) \stackrel{d}{\longrightarrow} \chi^{2}(L-K) J(β^GMM,S^−1)⟶dχ2(L−K)

其中(L−K)(L-K)(L−K)表示过度识别的约束个数。原假设为所有工具变量均外生。在同方差假设下，J(β^GMM,S^−1)J\left(\hat{\boldsymbol{\beta}}_{\mathrm{GMM}}, \hat{\boldsymbol{S}}^{-1}\right)J(β^GMM,S^−1)与Sargan统计量相同。

8 非正交性识别

如果拒绝所有变量均外生，则需要进一步识别出哪些工具变量与扰动项存在相关性或非正交性，设LLL维度的工具变量zi\boldsymbol z_izi种前L1(L1≥K)L_1(L_1 \ge K)L1(L1≥K)个工具变量满足外生性，后L−L1L-L_1L−L1个工具变量存在非正交性。分别计算LLL个工具变量与L−L1L-L_1L−L1个工具变量的JJJ统计值，并作差构造CCC统计量（或GMM距离，或Sargan差）

C≡J−J1⟶dχ2(L−L1)C \equiv J-J_{1} \stackrel{d}{\longrightarrow} \chi^{2}\left(L-L_{1}\right) C≡J−J1⟶dχ2(L−L1)

L−L1L-L_1L−L1为不满足外生性工具变量个数。