查看原文
其他

基本无害 | 第三章第二节(全)——回归和因果关系

基本无害的 数据Seminar 2022-12-31

基本无害的计量经济学

——实证研究者指南

(重译本)

李井奎 译


第三章 使回归有意义第二节 回归和因果关系



正文共10440个字,预计阅读时间27分钟。感谢阅读!

原文:3.2

温馨提示:如遇公式展示不全,左右滑动即可查看完整公式



3.2 回归和因果关系

第3.1.2节展示了回归如何给出CEF的最佳(MMSE)线性近似。然而,这种理解并不能帮助我们解决更深层次的问题,即回归何时具有因果解释。什么时候我们可以考虑回归系数来近似在实验中可能被揭示的因果效应

3.2.1 条件独立性假设

当回归近似的CEF具有因果性的时候,回归就具有因果性。当然,这并没有回答问题。它只是把责任推向了(另)一层面,因为,正如我们所看到的,回归承袭了CEF的合理性。因果关系的理解因人而异,但许多学科的研究人员发现,用第二章使用的潜在结果符号,描述在不同住院治疗状况下的假设性比较中特定个体发生的情况,对于思考因果关系是很有用的。这些潜在结果的差异被认为是住院治疗的因果效应。当CEF描述固定参考人群的平均潜在结果差异时,它即具有因果性。
在一个特定问题的背景下,最容易对因果性CEF的模糊概念进行扩展,所以让我们继续以学校教育程度为例。教育程度和收入之间的因果关系可以被定义为一种函数关系,它描述了一个特定个体(他或她)获得不同教育水平将会取得多少收入。特别是,我们可能会认为学校教育程度的抉择是在一系列事件中做出的,即便某些选择比其他选择更有可能,决策者实际上是可以走这条路或者另外一条路的。例如,在高中的时候,Angrist焦躁不安、心情郁闷,他悲观地考虑他的人生选项:从高中辍学,有希望找到一份工作;继续上学,但选些容易的课程,快速拿到高中文凭;或者在学业道路上埋头苦干,最终进入大学读书。虽然这些选择的结果通常是事先未知的,但对于特定的个人来说,不同道路导致不同结果的想法,似乎无可争议。哲学家们一直在争论这种潜在结果的个人见解是否足够精确,以至在科学上也一样有用,然而每个决策者似乎都能毫无障碍地以这种方式思考他们的生活和选择(正如罗伯特·弗罗斯特著名的《未走的路》中所言:人生旅途上的自己回顾某一个选择时刻时,他坚信,选择人迹罕至的那条道路“使一切有所不同”,尽管他也承认,反事实的结果并非可知)。
在实证研究中,教育程度和收入之间的因果关系可以告诉我们,如果我们能在可完全控制的环境中改变受教育程度,或者随机改变受教育程度,使受教育程度不同的人具有可比性,那么平均而言人们会挣得多少收入。正如我们在第2章中所讨论的,实验确保了所关心的因果变量与潜在结果无关,因此被比较的群体是真正具有可比性的。在这里,我们想将这个概念推广到具有两个以上值的因果变量以及更复杂的情况,即我们必须保持各种控制变量不变,以使因果推断有效。条件独立性假设(CIA)就此给出,这是一个核心假设,为回归估计的因果解释提供了(有时是隐性的)理由。这个假设也被称为基于可观测变量的选择,因为保持不变的协变量被假设为已知和可观测的(例如,请参看:Goldberger,1972;Barnow、Cain和Golderger,1981)。因此,最大的问题是,这些控制变量是什么,或者应该是什么。稍后我们会详细介绍。现在,我们只管做计量经济学的事情,把这些协变量称为 。就学校教育问题而言,人们似乎很自然地认为 是包含能力和家庭背景测量指标的一个向量。
讨论伊始,将教育程度看作一个二元决策,比如Angrist是否上大学。用一个虚拟变量 表示它。上大学与否和未来结果(如收入)之间的因果关系,可以用我们在第2章中描述实验时使用的潜在结果符号来描述。为了解决这个问题,我们设想两个潜在的收入变量


这里, 没上过大学时的收入,而 上过大学时的收入。我们想知道的 之间的差值,就是上过大学对个体 的因果效应。如果我们能回到过去,推动 走上没有走过的道路,我们就可以测量 之间的差值。所观察到的结果 可用潜在结果的形式表示为:


不过我们只能看到 中的一个,不能同时看到两个。因此,我们希望测量 的平均值,或某些群体的平均值,比如那些上过大学的人。这就是

一般来说,比较那些上过和没上过大学的人,很可能不是衡量上大学的因果效应的好方法。按照第2章的逻辑,我们有:


无论如何,上过大学的人看起来可能收入更高。如果是这样的话,选择性偏差为正,则这种简单的比较 夸大了上大学的好处。
CIA告诉我们,在可观察到的特征 为条件的情况下,选择性偏差消除了。形式上,这意味着:


其中符号“”表示独立关系,竖条右侧的随机变量为条件集。给定条件均值独立(CIA)假设,以为条件,对不同教育水平的平均收入进行对比可以得出因果关系。换句话说,


现在,我们想把条件独立假设扩展到可以包含有两个以上取值的变量的因果关系中去,比如学校教育年限 。受教育程度和收入之间的因果关系可能因人而异。因此,我们使用特定个体的函数符号


来表示个人 在接受 年教育后可能获得的收入。如果 只取12和16这两个值,那么我们就又回到了上过大学与否的那种情况中了:


更一般地说,函数 告诉我们,给定任一个值 的教育水平, 取得多少收入。换句话说, 回答了“如果某种情况发生那么将会怎么样(what if)”的因果关系问题。在人力资本和收入关系的理论模型体系中, 的形式可能是由个人行为的那些特征决定,或者由市场力量决定,或者由两者共同决定的。
在这个更为一般的框架里,CIA变成了下面这个表达式:即对于所有的


在许多随机实验中,因为 是在 的条件下随机分配的(例如,在田纳西的STAR实验中,小班是在学校内随机分配的),所以CIA显然成立。在一项观测性的研究中,CIA的意思是, 是在 的条件下“和随机分配一样好”。
条件下,受教育年限增加一年所产生的平均因果效应为 ,而受教育年限增加4年所产生的平均因果效应为 。数据只表明 ,即 时的 。但给定CIA,在 条件下对不同教育水平的平均收入进行对比,是可以得出因果关系的解释的。换句话说,对于 的任何值,


例如,我们可以比较受教育12年和11年的人的收入来认识高中毕业的平均因果效应:


这个比较之所以有一个因果解释,是因为给定CIA则有下式成立:


在这里,选择性偏差来自于潜在的(有能力)高中毕业的辍学者的收入水平与(实际)未能高中毕业的辍学者收入水平之间的差异。但是,如果CIA成立,高中毕业与否与 的潜在收入无关,那么选择性偏差就消失了。还需要注意的是,在这种情况下,高中毕业生高中毕业的因果效应等于在 条件下的高中毕业平均效应:


这确实重要,不过稍逊于消除选择性偏差。
到目前为止,我们已经为条件性变量的每个取值建立了单独的因果效应。这导致了有多少 的值,就有多少因果效应,多到让人有点尴尬。经验研究者几乎总是发现将一组估计值归结为一个单一的概括指标很有用处,例如归结为无条件平均因果效应或总体平均因果效应。根据迭代期望法则,高中毕业的无条件平均因果效应为:


同理,我们还可能会对高中(毕业)生之高中毕业的平均因果效应感兴趣:


这个参数告诉我们高中毕业生因毕业优势而带来多少的收入。同样,对于大学毕业的效应,大学毕业生的平均因果效应 与无条件平均效应 是有区别的。
无条件平均效应(3.2.3)可以通过将所有特定的 的效应以 的边际分布加权平均来计算,而对高中或大学毕业生的平均因果效应则是将这些群体中特定的 效应以 的分布加权平均。在这两种情况下,经验上与之对应的是一个匹配估计量:我们在不同的教育群体中对具有相同协变量值的个人进行比较,计算他们平均收入的差异,然后以某种方式对这些差异进行平均。
实际上,在实现匹配策略时需要考虑许多细节。我们在第3.3.1节中给出了一些关于匹配机制的技术细节。这里我们要提到的是,匹配方法有一个缺点,就是它不是自动地实现的;相反,它需要两个步骤:匹配和平均。对所得到的估计值的标准误差进行估计,可能也不是那么简单。第三个考虑因素是,作为本小节核心内容的双向对比(高中或大学完成者与辍学者)并不能完全恰当地解决当前的问题。由于 具有许多值,所以对于 的每一个可能的增量都有单独的平均因果效应,这也必须以某种方式加以归结。[1]这些考虑让我们重新回到回归问题上来。
回归提供了一个易于使用的经验策略,自动地把CIA变成因果效应。从CIA到回归有两种路径。一种假设 上都是线性的,除了可加性误差项外,它对所有人都是相同的,在这种情况下,线性回归是估计 特征的自然工具。另外一种路径更为一般化,但绕得稍远,它认识到, 几乎肯定因人而异,而且不一定在 上是线性的。即使如此,考虑到 在不同的人之间的随机变化和对于特定个体的非线性,回归还是可以被认为是一种估计个体特定差异 的加权平均值的策略。事实上,回归可以被看作是一种特殊的匹配估计量,它估计出了平均的因果效应,大小就如(3.2.3)或(3.2.5)中的一样。

此刻,我们想要关注回归得到因果解释所需的条件,而不是回归匹配类似程度的细节。因此,我们从第一条路径开始,即考虑一个线性常数效应因果模型。假设:


除了线性之外,这个方程还表明,函数关系对每个人来说都是相同的。再有, 没有 下标,因为方程(3.2.7)告诉我们,个人 会取得多少收入,来自 的任意值,而不只是其实现值 。而在这种情况下, 唯一的个体特异性和随机部分,是 这个零均值误差部分,它体现了决定潜在收入的那些未被观察到的因素。
将(3.2.7)式中的观测值 代入 ,得到:


除了方程(3.2.7)明确地将(3.2.8)中的系数与因果关系联系起来这一点之外,方程(3.2.8)看起来就像一个双变量回归模型。重要的是,因为方程(3.2.7)是一个因果模型,所以 可能与潜在结果 相关,或者,在这种情况下, 与(3.2.8)的残差项 相关。
现在假设,在给定可观测协变量 的向量情况下,CIA成立。除了(3.2.8)中所体现的潜在结果的函数形式假设外,我们将潜在收入的随机部分 分解为可观察特征 和误差项 的线性函数:


其中 是假设满足 的总体回归系数的向量。 的回归所定义,残差 在结构上不相关。此外,根据CIA条件,我们有:
因此,这个线性因果模型中的残差


与回归变量 都不相关,回归系数 就是我们所感兴趣的因果效应。
这里需要再次强调的关键假设是,可观察到的特征 (也即 )相关的唯一原因。这一假设在四分之一世纪之前就曾由Barnow、Cain和Goldberger(1981)讨论过,它就是关于回归模型的基于可观测变量的选择假设。它至今仍然是大多数经济学实证研究的基础。

3.2.2 遗漏变量偏差公式

除了感兴趣的变量 ,我们现在还把一组控制变量 引入到我们的回归中。遗漏变量偏差(OVB)公式描述了拥有不同控制变量集的模型回归估计值之间的关系。这个重要的公式通常是由这样一个观念驱动的,即认为较长的回归——如(3.2.9)那样有控制变量集的回归——具有因果解释,而较短的回归则没有因果解释。因此,较短回归中所含变量的系数被认为是有偏的。事实上,OVB公式是适用于短回归和长回归的系数向量之间的一种联系机制,而不论长回归是否具有因果解释。虽然如此,我们还是遵循惯例,将长回归和短回归中包含的系数之间的差异视为由OVB公式确定的。
为了使讨论具体化,假设学校教育回归中的相关控制变量集可以归结为家庭背景、智力和个人志向的组合。让我们用向量 来表示这些特定因素,将其简称为“能力”。控制能力因素之后,工资对受教育年限 的回归可以写成:


其中, 是总体回归系数, 是根据定义与所有回归变量不相关的回归残差。如果给定 情况下CIA适用,那么此处的 即与线性因果模型(3.2.7)中的系数相 等,而残差是 控制 后剩余的影响潜在收入的随机部分。
在实践中,能力因素很难衡量。例如,美国当前人口调查(CPS)是应用微观经济学中广泛使用的大型数据集(也是美国政府失业率数据的来源),它没有告诉我们成年受访者的家庭背景、智力或个人志向如何。回归(3.2.10)缺少能力因素,其后果是什么呢?所得到的“短回归”系数与式(3.2.10)中的“长回归”系数的关系如下:

遗漏变量偏差公式


其中 元素对 回归所得的系数向量。换句话说,OVB公式告诉我们:
短回归等于长回归加上遗漏变量效应乘以遗漏变量对所包含变量的回归。
这个公式很容易推导:将长回归代入短回归公式 。不足为奇的是,OVB公式与3.1.2节中的回归解析公式(3.1.3)密切相关。OVB公式和回归解析公式都告诉我们,当遗漏变量和所包含变量不相关时,长短回归的系数是相同的。[2]
我们可以使用OVB公式来认识学校教育系数中遗漏能力因素的可能后果。这些遗漏变量对工资有正向影响,也可能与受教育程度呈正相关。因此,与我们所期望的相比,短期回归系数可能“太大”。另一方面,就经济理论而言,学校教育和能力之间相关性的方向并不十分明确。有些遗漏变量可能与学校教育负相关,这种情况下回归系数又可能太小。[3]
表3.2.1使用NLSY的数据说明了这些情况。表中的前三个条目显示,当家庭背景变量(本例中是父母的教育程度)以及一些基本人口统计特征(年龄、种族、人口普查居住地)作为控制变量时,学校教育系数从0.132下降到0.114。通过军队资格测试(AFQT)分数作为代理变量来进一步控制个人能力,可将学校教育系数降低到0.087 (AFQT是军队用来选拔士兵的测试)。OVB公式告诉我们,这些减少是由于增加的控制变量与工资和教育都呈正相关的事实所致。[4]
表3.2.1  NLSY中对男性而言教育回报的估计值
注:数据来自全国青年纵向调查(1979年组,2002年调查)。该表报告了在工资对数对就学年数和其他所显示的控制变量的回归中就学年数的系数。标准误差在括号内给出。该样本仅限于男性,并由NLSY抽样权重加权。样本容量是2434。
*其他的控制变量是父母受教育的年限,以及作为虚拟变量的种族和人口普查居住地。
尽管简单,OVB公式却是认识回归的最重要事实之一。OVB公式的重要性源于这样一个事实:如果你认为没有遗漏变量偏差,那么通常你也会说得到的回归就是你想要的回归。而你想要的回归通常会有一个因果解释。换句话说,你准备凭借CIA取得对长期回归估计值的因果解释。
此时,值得考虑的是CIA什么时候最有可能为实证工作提供可信的基础。最好的情况是在某种实验(可能是自然实验)中,以 为条件随机分配 。Black等人(2003)对失业工人强制性再培训计划的研究即为一例。令这项研究的作者感兴趣的是,再培训计划能否在以后成功地提高收入。他们利用了这样一个事实:他们所研究项目中的培训资格是根据个人特征以及过去的失业和工作经历来确定的。工人们根据这些特点被分成不同的群体。虽然一些工人群体中的某些人没有资格接受培训,但其他群体的工人如果没有工作就必须接受培训。当这些强制性培训组的工人人数超过培训名额时,培训机会则是通过抽签分配的。因此,以将工人分配到各组的协变量为条件,培训要求此时是随机分配的。对是否受到培训的虚拟变量,以及个人特征、过去的失业情况变量和用于对工人进行分类的工作经历变量进行回归,似乎很有可能提供对培训因果效应的可靠估计值。[5]
在学校教育方面,通常不会有直接决定一个人是否上大学或完成高中学业这样的抽签机会。[6]尽管如此,我们还是可以想象让具有相似能力和相似家庭背景的人参加一个鼓励上学的实验。教育维持津贴(educational Maintenance Allowance)就是这样一种政策实验(Dearden等人,2003),它向英国某些地区的高中生支付上学费用。
第二种支持CIA的情况依赖于关于决定 过程的详细的制度知识。例如,Angrist(1998)研究了自愿服兵役对士兵后来收入的影响。这项研究想问的是,从长远来看,自愿在美国军队服役的男性经济状况是否会更好。由于自愿服兵役不是随机分配的,所以我们永远无法确定其因果效应。因此,Angrist使用匹配和回归技术来控制在1979年到1982年间申请服兵役的退伍军人和非退伍军人之间的可观察差异。在这种情况下,采取该控制策略的由头是,军方主要根据可观察的协变量,如年龄、学历和考试分数来筛选士兵申请人。
Angrist(1998)中的CIA可以归结为这样一种主张,即在以所有这些可观察到的特征为条件的情况下,退伍军人和非退伍军人是可比较的。这个假设似可付之一笑,因为以 为条件,在Angrist(1998)研究中是否为退伍军人这一变量的变化仅仅来自于以下这一事实,即有一些合格的申请人在最后一刻没有入伍。其实,导致合格申请者“退出”招募过程的因素可能与潜在收入有关,所以在这种情况下,CIA显然根本不能得到保证。

3.2.3 不良的控制

我们已经指出,对协变量的控制可以增加回归估计值具有因果解释的可能性。但并不总是越多的控制就越好。有些变量是不良的控制变量,不应该包含在回归模型中,即使把它们包含进回归模型时预计可以改变短回归系数。不良的控制变量本身会是我们所设想的实验的结果变量。也就是说,不良的控制变量也可能是因变量。良好的控制变量,是我们可以考虑的当感兴趣的回归变量选定时(它们)也已经固定的变量。
尽管比第2章第3.2.1节讨论的选择性偏差更微妙,不良控制问题的本质还是一类选择性偏差。为了说明这一点,假设我们对大学学历影响收入的问题产生兴趣,同时设想我们可以从事两种职业(白领和蓝领)之一。大学学历显然为高薪白领工作打开了大门。因此,职业是否应该被视为工资对受教育年限回归中被遗漏的变量呢?毕竟,职业与教育和收入两者都高度相关。也许,最好还是在一类职业中观察大学(学历)对工资的此种影响,比如仅看白领。该问题的争议在于,一旦我们承认大学学历影响职业这一事实,即使大学学历是随机分配的,同类职业中大学学历身份(与否)的工资比较,就不具有苹果与苹果的可比较性了。
下面是有关大学学历/职业中不良控制问题的公式化阐释。[7] 为虚拟变量,表示是否白领工人, 表示收入。这些变量的实现取决于大学学历身份( 表示)以及与 挂钩的潜在结果。我们有


其中, 表示拥有大学学历, 表示不拥有大学学历, 表示潜在的收入, 表示潜在的白领工人与否。我们假设 是随机分配的,因此它独立于所有可能的结果。我们不难估计 的因果关系,因为独立性告诉我们


在实践中,我们可以通过 的回归来估计这些平均处理效应。
不良的控制意味着以 为条件的收入比较不具有因果解释。以是白领工作为条件,考虑大学毕业生和非大学毕业生的平均收入差异。我们可以在一个包含 的回归模型中计算这个值,或者在 的样本中通过 进行回归。后一种情况下的估计值是在 条件下 时的平均值之差:


的联合独立性,我们得到


这个表达点出了不良控制问题的本质:


换句话说,以是否从事白领工作为条件,有无大学学历的工资差异,等于那些 的人们(拥有大学学历且为白领工人)大学学历的因果效应加上选择性偏差这一项,该偏差项反映了这样一个事实:大学学历改变了白领工人群组的构成。
在这种情况下,选择性偏差可以是正的,也可以是负的,这取决于职业选择、是否受过大学教育和潜在收入之间的关系。关键在于,即使 ,也就是大学教育对工资没有因果关系,(3.2.12)中的条件性比较告诉不了我们这一点( 的回归有着完全相同的问题)。如果说条件性比较抓住了大学学历效应中“不是由职业选择来解释的”那一部分,这也是不正确的。事实上,如果没有一个关于大学教育、职业选择和收入之间联系的更详细的模型,条件性比较并不能告诉我们多少有用的东西。[8]
作为一个实证例子,我们看到,把职业这个二元虚拟变量纳入回归,确实降低了表3.2.1中报告的NLSY模型中受教育年限的系数,此例中系数从0.087降低到0.066。然而,对于这种下降,我们难以言说。当我们把职业虚拟变量纳入回归时,受教育年限系数的变化可能只是选择性偏差的产物。所以,我们只控制哪些本身不是由于教育引起的变量更好些。

不良控制问题的第二种情况,涉及到代理控制变量(proxy control),也就是说,回归包含了一些或许部分地控制了遗漏变量的变量,但它们自身也会受到我们所感兴趣的回归变量的影响。代理控制变量的一个简单版本是这样的:假设你对一个类似于(3.2.10)的长回归感兴趣,


为了便于讨论,在该方程中,我们将控制向量 替换为能力这个标量指标 。我们可以把它看作是在做出任何相关的教育选择之前(假设每个人都完成了八年级学业)一个衡量八年级学生先天能力的智商分数。根据定义这个方程中的误差项满足 。因为 是在 确定之前观测的,所以它是一个良好的控制变量。
方程(3.2.13)是我们所感兴趣的回归,但遗憾的是, 的数据是不可得的。不过,你还可以找到第二种能力指标(比如,用于筛选求职者的测试分数),这个指标是在人们完成学业之后收集的。我们不妨把它称为后天的能力变量  。一般来说,相对于先天能力,学校教育会提高后天能力。具体来说,假设


由此式,我们可称学校教育和先天能力都提高了后天或(其他)可观测的能力几乎可以肯定,在所观测到的能力中也存在一些随机性,但我们可以通过确定性联系(3.2.14)更简单地阐明我们的观点。

你担心 的单独回归中遗漏变量偏差,(又)因为你想要控制的 不可得,所以你打算让 和后天能力 回归。用(3.2.14)代替(3.2.13)中的 ,对 的回归为


在这种情况下, 都是正的,所以,除非 等于0,否则 是非常小的。换句话说,使用随感兴趣的变量而增加的代理控制变量,会产生低于预期效应的系数。但要关注的是, 可以作某种程度的研究:如果 的回归是零,你可以感觉良好地假设 在(3.2.14)中是零。
在代理控制变量情况中有一个有趣的模棱两可之处,这在第一个不良控制变量情形中是没有出现的。对结果变量的控制被轻易误导了;如果回归能有一个因果解释,那么你不会想在受教育年限回归中控制职业变量。不过,在代理控制变量情况中,你的意图还是不错的。虽然代理控制变量不会产生感兴趣的回归系数,但它可能比完全没有控制变量要有所改进。回想一下,使用代理控制变量的理由在于等式(3.2.13)。就这个模型中的参数而言,OVB公式告诉我们,在没有控制变量情况下对 的回归产生一个系数 ,其中 回归的斜率系数。(3.2.15)中的学校教育系数可能比你估计的完全没有控制变量的系数更接近 。此外,假设 为正,你可以有把握地说,我们所感兴趣的因果效应存在于这两者之间。
不良控制和代理控制变量问题所带来的一个教训是,在考虑控制变量时,时机很重要。在感兴趣的变量确定之前观测的变量,通常是良好的控制变量。特别是,因为这些变量确定于感兴趣的变量之前,所以它们本身不可能是因果关系的结果。然而,时机往往是不确定或未知的。在这种情况下,关于因果路径的清晰推理需要明确地假设首先发生了什么,或者断言没有任何控制变量本身是由感兴趣的回归变量引起的。[9]

注释:

[1] 例如,我们可以利用 的分布构造 的平均效应。换句话说,我们通过匹配来估计每个 ,然后计算平均差值


其中 的概率质量函数。这是平均导数 的离散近似。

[2] 这是一般化到多元情形的OVB:令 表示没有其他变量的(短)回归中 变量向量 的系数向量,令 表示这些变量在包含 增加的变量 (其系数向量为 )的(长)回归的系数向量。然后

[3] 作为受过高等教育的人,我们倾向于认为能力和学校教育是正相关的。然而,这并不是一个必然的结论:米克•贾格尔(Mick Jagger)从伦敦经济学院(London School of Economics)退学,比尔•盖茨(Bill Gates)从哈佛大学(Harvard)退学,或许是因为这些高智商人士上学的机会成本很高(当然,他们也可能是一对非常幸运的大学辍学生)吧。

[4] 大量的实证文献研究了从学校教育回归方程中忽略能力变量的后果。早期的主要参考文献包括:Griliches和Mason (1972), Taubman (1976), Griliches (1977), 以及Chamberlain (1978)。

[5] 这个项目似乎提高了收入,主要是因为接受培训的工人更快地重返工作岗位。

[6] 抽签被用来发放私立学校的学费补贴;参见Angrist等人(2002)。

[7同样的问题也出现在以正概率为条件的比较中,我们还将在第3.4.2节对此详加讨论。

[8] 在这个例子中,选择性偏差可能是负的,也就是说 。任何大学毕业生都能得到一份白领工作,这似乎是合理的,所以相差不大。但是,那些没有大学学历(即)而得到一份白领工作的人可能很特别,也就是说,他们的比平均水平更高。

[9] Griliches和Mason(1972)对先天和后天能力控制变量在学校教育回归方程中的应用进行了开创性的探索。另见Chamberlain(1977,1978)与此密切相关的研究。Rosenbaum(1984)在回归框架之外,使用非常不同的符号对代理控制变量思想进行了另一种讨论。




本专栏主理人简介

企研数据学术顾问 · 李井奎


李井奎,1978年1月生,浙江工商大学经济学院教授、博士生导师,哈佛大学访问学者,以教书育人和传播学问为己任,曾获浙江省“高校优秀教师”称号。除学术论文写作之外,还著有《大侦探经济学:现代经济学的因果推断革命》等科普著作。




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

往期推荐


基本无害 | 使回归有意义——回归和因果关系(1)

基本无害 | 使回归有意义——回归和因果关系(2)

基本无害 | 使回归有意义——回归和因果关系(3)

基本无害 | 使回归有意义——回归和因果关系(1)

基本无害 | 使回归有意义——回归和因果关系(2)





数据Seminar




这里是大数据、分析技术与学术研究的三叉路口


文 | 《基本无害的计量经济学——实证研究者指南(重译本)》

翻译 | 李井奎

校对 | 陈泽 王锐

排版 | 李木子


    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存