查看原文
其他

浅析断点回归的经济学应用


  断点回归(Regression Discontinuity)是仅次于随机实验的,能够有效利用现实约束条件分析变量之间因果关系的实证方法。Thistleth waite和Campbell于1960年正式发表了第一篇关于断点回归的论文。随后Campbell和Stanley为断点回归提供了更加清晰化的概念,在被诸多学者所完善之后,断点回归分析方法被广泛应用于经济学领域。从断点回归的基本模型出发,简要分析断点回归为了使用与经济学而进行的两个变型。

文/王湛晨,云南财经大学财政与经济学院

来源/经济研究导刊


断点回归首先出现在Thistlethwaite和Campbell(1960)关于“对学生的未来学术成果(生涯渴望和研究生项目等级)进行嘉奖”的研究中。其研究表明,奖励根据学生参与测试的成绩进行分配。假设某一学生的分数为X,大于等于一临界值c,便会获得奖励,相反,低于此临界值的学生则享受不到奖励。在这一处理实验(给予奖励)中便会形成一个明显的断点,以函数表达则表现为不连续。用虚拟变量D={0,1}表达处理的收益,即当X≥c时,D=1;当X<c时,D=0


另外,毋庸置疑的是,除了接受奖励,对于未来学术成果Y也是测试分数的不连续函数。因此,Y在c处的跳跃间断便是受到奖励的因果效应。



假设某一样本的得分X就是c,这一情况下,我们要猜测其收益Y是否为接受了奖励的结果。假设我们可以认为除了是否奖励,其余因素对于X都是平滑的。则B′可以看作是对得分刚好为c(获得奖励)的样本其收益Y的合理猜测。同理,A′′可以看作是未接受奖励的样本。因此B′-A′′可以看作是因果估计。


可见,RD设计应该采用临界点附近的样本作为研究对象,如图1中c′′和c′。 因此理论上来说,样本选取越接近临界点越好。然而在实践过程中,我们不能仅仅考虑临界点附近的样本。所考虑的范围越窄,样本数量就会越少。图1显示,比c′′和c′更加邻近的样本根本不存在。因此,为了充分利用有限的数据,猜测关于X=c时是否获得奖励,我们仍需要距离临界点相比来说有一定距离的样本。


如果方程确定为线性,我们便可以用OLS估计获得D的系数τ的最优无偏估计量。 


有上述讨论便可以看出RD的两个特点:首先,需要考虑充分能够影响Y的所有因素,而且这些因素对于X而言应该是平滑的。如果另有因素在c处出现跳跃,对于τ(获得奖励的收益)的估计或许是有偏的。另外,因为RD还需要距离临界点较远的数据,因此对于回归方程的选择很重要。本文所讨论的,如果斜率β被错误地限定为0,对于D的OLS估计将得出有偏的结果。



一、RD潜在结果分析框架


当RD被引用为应用经济学中,比如Vander Klaauw(2002),Black(1999),以及Angrist and Lavy(1999),上文提及的识别项在基于Hahn,Todd和Van der Klaauw(2001)的理论上被形式化,其认为RD评估策略运用了有关处理效应文献的相关语言。Hahn,Todd和Van der Klaauw(2001)中指出了RD的关键性假设,所有变量对于X而言应该是连续的,而且如前文提到的一般模型一样对于τ估计的非参数过程不局限在基本的线性问题上


越来越多的有关“处理效应”的文献通过潜在结果分析框架支持了“连续性假设”的必要性,并通过图表予以辅助说明。对于样本个体i而言,存在了两种潜在的结果,即接受处理得到结果Yi(1)和拒绝处理得到结果Yi(0)。处理的因果效应便可以通过一次差分Yi(1)-Yi(0)获得。



非线性RD设计


因果推论的基本问题在于,我们不能同时发现一对完美的Yi(1)和Yi(0)。因此,我们转而关注处理效应的平均值,即Yi(1)-Yi(0)在一组样本上的处理效应而不是单个样本。


关于RD实验的准备,我们假设对于结果和变量X,存在两组对应关系,E[Yi(1)|X]和E[Yi(0)|X](如图2所示)。根据RD实验原理,对于所有位于间断点右侧的样本点(本图中c=2处)选择接受处理而左侧的拒绝处理。因此对于E[Yi(1)|X]我们仅考虑其在c=2右侧的图像,而对于E[Yi(0)|X]我们仅考虑其在c=2左侧的图像。


E[Yi(1)-Yi(0)|X=c] 这就是在间断点c处的平均处理效应。因为E[Yi(1)|X]和E[Yi(0)|X]是连续的,因此上述推论方可成立。


本质上来说,连续性前提使得我们能够用图中c右侧下面的曲线(拒绝处理组)作为c右侧上面的曲线(接受处理组)平均实施结果的有效参照。 尽管潜在结果分析框架对于理解断点回归如何应用于经济学分析框架十分有帮助,但仍旧存在一些难点。首先,连续性前提看似合乎情理但从经济学角度理解很难尽善尽美。一些经典经济学假设对于连续性不做要求,因此。对于一些经济行为,我们很难定义“连续”。其次,断点回归实验是对于样本选择有特殊的要求。通常包含两个重要条件:一是可见的随机分配条件。


对于标准回归分析框架,所有相关因素都应受到控制,没有遗漏的变量与虚拟处理变量存在相关性。在断点回归分析中,这一条件能够得到很好的满足。当X≥c时,虚拟处理变量D总为1,而当X<c时,其值为0,故而不存在任何随意变量,也不会与其他任何变量相关。另外,对于一个确定的X,不会存在使得D的值或为1或为0的情况。这是因为,连续性假设下,不应存在重叠。因此,我们仅仅可以说是对于间断点两侧的取值是十分相近的。


二、随机局部实验的RD分析


当我们把断点回归分析作为随机试验下政策工程效果的评估的方法时,我们可以看出,断点回归分析更像是随机试验。 


RD随机试验


在一个随机试验中,样本基于随机生成的数字v被分为处理组和控制组。V服从[0,4]的均匀分布,并且在v大于等于2时接受处理,反之拒绝。这一情况下,断点回归设计便是X=v在间断点v=2处间断的情况(如上图所示)。


上图为潜在结果分析框架的一种特殊情况,在这里,X是完全随机的,不再由潜在结果Yi(1)和Yi(0)决定,因此其图形是平坦的。由于E[Yi(1)|X]和E[Yi(0)|X]在随机试验中是平坦的曲线,因此,平均的处理效应便是间断点右侧的平均值和左侧平均值的差。


或许会有人对X做Y的回归,但是,如果我们确定随机是成功的,X应该与这一回归是不相关的。


现在我们举一个简单的例子说明,出于某种原因,人们可以获得与随机数字X呈反比例的经济补偿。处理政策为失业者能否在一个月内重新找到工作。获得补偿多的人能够负担得起更长的寻找工作周期,其潜在结果曲线则变成斜率为政的曲线。这是因为,得到的随机数字越大,获得的补偿就会越少,故而缩减了寻找工作的周期,这样便会呈现出和图非线性RD设计相似的情形。


经典的随机试验,不能够得到处理效应的一致估计。通过研究断点右侧,断点回归的方法仍旧能够产生处理效应的一致估计。这是因为,由于处于间断点附近的人们本质上来说得到的补偿差异不大。因此,在间断点附近仍旧是一个局部随机试验。在本实验中,因为我们假设了经济补偿是关于X的连续函数。因此,连续性假设使得我们能够得到对于处理效应的一致估计量。


推荐阅读:

断点回归设计国内外研究综述

退休对家庭消费的影响 ——基于模糊断点回归设计


来源:经济研究导刊,原文有删减

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存