查看原文
其他

Stata:被忽视的严格外生性假设

连享会 连享会 2023-10-24

👇 连享会 · 推文导航 | www.lianxh.cn

连享会视频课 · 因果推断实用计量方法

作者:窦艺 (中国人民大学)
邮箱:sfrucdouyi@163.com

编者按:本文主要摘译自下文,特此致谢!
Source:Grieser W D, Hadlock C J. Panel-data estimation in finance: Testable assumptions and parameter (in) consistency[J]. Journal of Financial and Quantitative Analysis, 2019, 54(1): 1-29. -PDF-

温馨提示: 文中链接在微信中无法生效。请点击底部「阅读原文」。或直接长按/扫描如下二维码,直达原文:


目录

  • 1. 问题概述

  • 2. 严格外生性检验

    • 2.1 Wooldridge (2010) 的方法

    • 2.2 Grieser 和 Hadlock (2018) 的方法

  • 3. 数值模拟

    • 3.1 满足严格外生性

    • 3.2 不满足严格外生性

  • 4. 结语

  • 5. 相关推文



1. 问题概述

面板数据可以通过控制固定效应来控制不随时间变化的,且与解释变量相关的不可观测因素。在实证研究中,我们通常会认为控制固定效应后,外生性假设得以满足,参数估计是一致的。然而,控制固定效应满足的是同期外生性假设,严格外生性假设往往不成立。例如,当因变量对未来的自变量有影响,或者自变量和因变量部分受到共同因素的影响时,严格外生性会被打破,此时参数估计不一致。

具体地,以简单面板回归模型为例进行说明:

其中, 表示横截面单位 (从 ), 表示时间 (从 )。同期外生性假设和严格外生性假设分别为:

有时同期外生性假设满足,严格外生性假设不满足。例如,因变量为公司业绩,自变量为公司价值,当前公司业绩会影响未来公司价值,这时因变量直接影响未来的自变量。因变量 (公司的股票回报) 和未来的自变量 (管理所有权) 同时受到经济冲击的影响。

我们以一个简单例子来说明,在不满足严格外生性假设下,FE (固定效应模型) 和 FD (一阶差分模型) 估计的不一致性。假设 ,真正的 为 0,即 没有因果效应。但是过去的冲击对未来的 有正向的影响,表示为

一个数值较大的 伴随着一个数值较大的 ,因此 呈明显的负相关关系。当把 回归到 上时,我们会得到一个假的估计系数 。考虑到这一问题对估计结果的严重影响,Wooldridge (2010) 强调在使用 FE 或 FD 进行估计之前,要检验严格外生性假设是否成立。

但是,在实际的金融研究中,这一问题并没有得到相应的重视,并且鲜少有文献去讨论是否满足严格外生性假设。Grieser 和 Hadlock (2018) 搜寻了 2006—2013 年 The Journal of Finance,The Journal of Financial Economics 和 The Review of Financial Studies 中使用固定效应的文章,排除掉使用滞后因变量的文章后,有 240 篇报告了 FE 或 FD 的估计结果,有 11 篇报告了动态面板 GMM 估计结果。其中,在 216 篇仅报告了 FE 估计结果的文章中,只有 3 篇文章提到了 “严格外生性假设”,1 篇文章测试了是否满足 “严格外生性假设”。

当严格外生性得不到满足时,解决办法是使用 GMM 或者 IV 估计量。然而,即便是使用工具变量,也应当测试其是否满足严格外生性假设。Grieser 和 Hadlock (2018) 测算后发现,在传统的 (即非 IV) 面板设置中,严格的外生性假设通常被拒绝,甚至 FE 和 FD 得到的系数是相反的,许多报告的 FE 和 FD 估计是对系数的不一致估计。

2. 严格外生性检验

2.1 Wooldridge (2010) 的方法

Wooldridge (2010) 提出两种基于回归的方式来检验严格外生性,分别为:

  • FE:
  • FD:

如果 (),那么严格外生性假定被拒绝。在有多个解释变量的情况下,可以对每个变量估计 系数,并检验是否联合显著。

2.2 Grieser 和 Hadlock (2018) 的方法

Grieser 和 Hadlock (2018) 认为,可以通过比较 FE 和 FD 估计 (或者 IV 估计中的 FE-2SLS 和 FD-2SLS)。如果二者产生显著差异,那就可能是违反了严格外生性假设。如果确实存在较大差异,或者说,可能存在因变量与解释变量 (工具变量) 未来值之间产生相关性的机制,那么就应该进行正式的外生性检验。当然,FE 和 FD 估计是否存在差异并不是判断是否满足严格外生性假设的充要条件。

下面以 IV 估计进行举例说明。多数作者关注的是 IV 的同期外生性,而未对严格外生性进行检验。Grieser 和 Hadlock (2018) 寻找了两个最近研究常用 IV 的例子,以探讨特定研究情景下的严格外生性问题。

第一个例子 Perez-Gonzalez 和 Yun (2013)。作者了讨论了天气冲击对公司现金流的影响,验证了一个显然满足同期外生性的变量,不论是作为解释变量,还是作为工具变量,都通过了严格外生性的测试。

第二个例子 Gormley 和 Matsa (2014)。作者讨论了在使用面板数据时,利用解释变量的行业冲击作为工具变量的可行性。结果表明,一个看似满足同期外生性的变量,不论是作为解释变量,还是工具变量,都没有通过严格外生性的测试。

2.2.1 现金流、天气和投资情况

Perez-Gonzalez 和 Yun (2013) 探讨了天气冲击对公司现金流和公司防范行为的影响。由于天气冲击看起来较为外生,作者考虑了天气对现金流的直接影响,以及天气作为现金流的工具变量对资本支出的间接影响。

弱外生性 (同期外生性) 要求:

  • 天气冲击直接影响天然气和电力销售带来的当期现金流;
  • 天气冲击与任何遗漏变量不相关。

由于天气在很大程度上是不太容易预测的,因此,在控制年份和个体固定效应之后,当期的现金流 (Y) 应该不会和未来的天气 (X) 有关。这样看来,严格外生性假定似乎也能够满足。但是也可能会出现不满足这一假定的情况,比如特别冷的天气从 12 月下旬持续到 1 月,这样前一年的现金流一定程度上可以与第二年的天气相关。

为了验证这一假设,本文获取了原文的天气数据,并和电力与天然气公司的数据进行匹配。如果严格外生性假定满足,公司销售数据和天气冲击无关,或者产生反方向的变动。根据下表中 Panel A 第 1 和第 2 列的结果,不管使用 FE 还是 FD 估计,当期现金流对同期的天气高度敏感。LEAD_WEATHER 的系数很小且均不显著,表明没有办法证实当前现金流和未来天气预期有相关性。

在第 3 和第 4 列中,将资本支出做为因变量,将现金流作为自变量回归,结果发现 FE 和 FD 得到的估计量系数具有很大差异。LEAD_CASH_FLOW 系数显著为负,说明拒绝严格外生性检验。第 5 和第 6 列将天气变量作为现金流的工具变量进行回归,结果发现 FE 和 FD 估计系数十分接近,进一步为严格外生性假设提供支持。第 7 列中进一步放入 LEAD_WEATHER 变量,发现其系数较小且不显著,进一步支持了天气变量的严格外生性。

2.2.2 公司风险、行业风险和所有权

Gormley 和 Matsa (2014) 讨论了在使用面板数据时,利用解释变量的行业冲击作为工具变量的可行性。他们对这种方法提出谨慎的建议,该行业冲击对因变量必须是外生的 (即排他性)。即便研究者认为这一行业冲击是外生的,仍需要对严格外生性假定做出检验。

在公司风险对所有权影响的研究中,行业冲击捕捉了行业中潜在的外部变化,而不会对公司所有权产生影响 (即排他性假说可能成立)。因此,行业风险冲击可能是公司风险的合理 IV。本部分将对行业风险冲击的严格外生性进行检验。如果行业风险组成部分的未来变化在一定程度上是可预测的,管理者在所有权决策上便会考虑未来行业冲击,从而不满足严格外生性假定。

定义行业风险为该财政年度内每日市场调整的股票收益标准差的中位数,公司所有权是该公司所有高管持有股份的百分比之和。根据下表中 Panel B 第 1 和第 2 列的结果,不管使用 FE 还是 FD 估计,行业风险与公司风险均高度相关,且系数相差不大,表明相关性条件得到满足。

在第 3 和 4 列中,将公司所有权直接回归到企业风险中,发现 FE 和 FD 得到的估计量系数具有很大差异。LEAD_FIRM_RISK 系数显著为负,说明拒绝严格外生性检验。这说明直接将所有权回归到企业风险上是存在内生性问题的。

第 5 和第 6 列将行业风险冲击作为公司风险的工具变量进行回归,结果发现 FE 和 FD 估计系数有很大差异。如果满足严格外生性假设,两个估计量应该在大样本中收敛到相同的值。第 7 列进一步证实了这一结果,将公司管理权回归到 LEAD_INDUSTRY_RISK 变量上,系数高度显著,表明拒绝严格外生性假设。

3. 数值模拟

下面使用模拟数据展示 Grieser 和 Hadlock (2018) 提出的检验方法:如果 FE 和 FD 产生显著差异,那可能是违反了严格外生性。

其中,

3.1 满足严格外生性

当满足 (严格) 外生性时,

. clear all
. set seed 202209
. set obs 100

. gen e=rnormal(0,2)
. gen u=rnormal(0,1)
. gen x=uniform()

. gen t=1
. gen id=_n
. gen a=uniform()
. gen y=a+2*x+e

. forvalue i=2/100{
2. expand 2 in -100/-1
3. replace t=`i' in -100/-1
4. replace e=rnormal(0,2) in -100/-1
5. replace u=rnormal(0,1) in -100/-1
6. replace x=0.4*a+0*y+0*e+u if t==`i'
7. replace y=1+2*x+e
8. }

. * FE
. areg y x ,absorb(id)

Linear regression, absorbing indicators Number of obs = 10,000
Absorbed variable: id No. of categories = 100
F(1, 9899) = 10028.54
Prob > F = 0.0000
R-squared = 0.5111
Adj R-squared = 0.5061
Root MSE = 1.9931
------------------------------------------------------------------------------
y | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
x | 2.015 0.020 100.14 0.000 1.975 2.054
_cons | 0.989 0.020 48.44 0.000 0.949 1.029
------------------------------------------------------------------------------
F test of absorbed indicators: F(99, 9899) = 1.041 Prob > F = 0.371

. * FD
. tsset id t
. gen y_1=l.y // 生成滞后项
. gen delta_y=y-y_1 // 生成差分
. gen x_1=l.x
. gen delta_x=x-x_1
. reg delta_y delta_x

Source | SS df MS Number of obs = 9,900
-------------+---------------------------------- F(1, 9898) = 10153.64
Model | 80855.4897 1 80855.4897 Prob > F = 0.0000
Residual | 78819.7978 9,898 7.96320446 R-squared = 0.5064
-------------+---------------------------------- Adj R-squared = 0.5063
Total | 159675.287 9,899 16.1304463 Root MSE = 2.8219
------------------------------------------------------------------------------
delta_y | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
delta_x | 2.021 0.020 100.77 0.000 1.981 2.060
_cons | -0.000 0.028 -0.00 1.000 -0.056 0.056
------------------------------------------------------------------------------

可以看出,真实的 ,FE 回归结果为 ,FD 回归结果为

3.2 不满足严格外生性

当不满足 (严格) 外生性时,以 为例进行说明。

. clear all
. set seed 202209
. set obs 100

. gen e=rnormal(0,2)
. gen u=rnormal(0,1)
. gen x=uniform()

. gen t=1
. gen id=_n
. gen a=uniform()
. gen y=a+2*x+e

. forvalue i=2/100{
2. expand 2 in -100/-1
3. replace t=`i' in -100/-1
4. replace e=rnormal(0,2) in -100/-1
5. replace u=rnormal(0,1) in -100/-1
6. replace x=0.4*a+0.2*y+0.2*e+u if t==`i'
7. replace y=1+2*x+e
8. }

. * FE
. areg y x, absorb(id)

Linear regression, absorbing indicators Number of obs = 10,000
Absorbed variable: id No. of categories = 100
F(1, 9899) = 27683.94
Prob > F = 0.0000
R-squared = 0.7450
Adj R-squared = 0.7425
Root MSE = 1.9014
------------------------------------------------------------------------------
y | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
x | 2.463 0.015 166.38 0.000 2.434 2.492
_cons | 0.677 0.022 31.46 0.000 0.635 0.719
------------------------------------------------------------------------------
F test of absorbed indicators: F(99, 9899) = 0.998 Prob > F = 0.486

. * FD
. tsset id t
. gen y_1=l.y
. gen delta_y=y-y_1
. gen x_1=l.x
. gen delta_x=x-x_1
. reg delta_y delta_x

Source | SS df MS Number of obs = 9,900
-------------+---------------------------------- F(1, 9898) = 11619.44
Model | 90827.1451 1 90827.1451 Prob > F = 0.0000
Residual | 77370.9466 9,898 7.81682629 R-squared = 0.5400
-------------+---------------------------------- Adj R-squared = 0.5400
Total | 168198.092 9,899 16.9914225 Root MSE = 2.7959
------------------------------------------------------------------------------
delta_y | Coefficient Std. err. t P>|t| [95% conf. interval]
-------------+----------------------------------------------------------------
delta_x | 2.290 0.021 107.79 0.000 2.248 2.332
_cons | -0.001 0.028 -0.02 0.983 -0.056 0.054
------------------------------------------------------------------------------

可以看出,真实的 ,FE 回归结果为 ,FD 回归结果为 。此时,FE 和 FD 数值相差比较大,因此有必要进行外生性检验。

准确来说,3.1 模拟了严格外生性和同期外生性都满足的情况,3.2 模拟了二者都不满足的情况。除此之外,还有两种情况可以模拟 () 。为节省篇幅,不再单独展示。

4. 结语

Grieser 和 Hadlock (2018) 讨论了在使用面板数据 FE 和 FD 估计以及面板数据 IV 估计时,对严格外生性假设的要求。严格外生性比常见的同期外生性具有更强的假设,它要求因变量不会影响自变量 (或 IV) 的未来值。这一假设在一定程度上是可以验证的,但是在实证金融研究中往往被忽略。作者提出以下三个建议:

  • 第一,研究人员可以比较 FE 和 FD 估计,或者在使用 IV 时比较 FE-2SLS 和 FD-2SLS 估计。如果二者产生显著差异,往往是违反了严格外生性。(当然,这并不是一个充要条件。如果二者没有差异,并不代表着一定满足严格外生性。)
  • 第二,如果比较后发现存在很大的差异,或者,可能存在某一个机制使得因变量和自变量 (或IV) 的未来值之间产生相关性,那么应该按照文中所述的类型进行正式测试。
  • 第三,在找到一个严格外生的自变量或工具变量后,应该同时估计有和没有控制变量的模型。在金融研究中,我们采用的控制变量往往不是严格外生的,加入后可能会使得所有系数估计不一致。

5. 相关推文

Note:产生如下推文列表的 Stata 命令为:
lianxh 面板数据, m
安装最新版 lianxh 命令:
ssc install lianxh, replace

  • 专题:专题课程
    • ⏫NEW-面板数据因果推断:从入门到精通
    • ⏩直播:动态面板数据模型
  • 专题:Stata命令
    • Stata:面板数据的稳健回归-xtrobreg和robreg
    • Stata新命令-tobalance:非平行面板转换为平行面板数据
  • 专题:数据处理
    • Stata数据处理:面板数据的填充和补漏
  • 专题:面板数据
    • Stata绘图:面板数据可视化-panelview
    • 因果面板数据模型的矩阵补全方法
    • Stata:动态面板数据模型与xtabond2应用
    • Stata:面板数据的莫兰指数计算与散点图绘制-xtmoran
    • Stata:面板数据缺失值与多重补漏分析-twofold
    • xtewreg:面板数据存在衡量偏误-测量偏误时如何估计?
    • 面板数据模型-xtdcce2:动态共同相关和截面相关
    • Stata:动态面板数据模型OLS估计的偏差
    • Stata实操陷阱:动态面板数据模型
    • Stata面板:suest支持面板数据的似无相关检验
    • Stata新命令-tobalance:非平行面板转换为平行面板数据
    • Stata: 面板数据模型一文读懂
  • 专题:内生性-因果推断
    • fect:基于面板数据的因果推断(上)-T218a
    • fect:基于面板数据的因果推断(下)-T218b
  • 专题:空间计量
    • 空间面板数据模型及Stata实现

课程推荐:因果推断实用计量方法
主讲老师:邱嘉平教授
🍓 课程主页https://gitee.com/lianxh/YGqjp

New! Stata 搜索神器:lianxhsongbl  GIF 动图介绍
搜: 推文、数据分享、期刊论文、重现代码 ……
👉 安装:
. ssc install lianxh
. ssc install songbl
👉  使用:
. lianxh DID 倍分法
. songbl all

🍏 关于我们

  • 连享会 ( www.lianxh.cn,推文列表) 由中山大学连玉君老师团队创办,定期分享实证分析经验。
  • 直通车: 👉【百度一下: 连享会】即可直达连享会主页。亦可进一步添加 「知乎」,「b 站」,「面板数据」,「公开课」 等关键词细化搜索。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存