查看原文
其他

因果推理发展史

经济学及统计学领域的因果推理

因果推理在经济学领域的历史其实并不长。20世纪40年代,挪威奥斯陆大学的经济学者特里夫・哈维默( Trygve Magnus Haavelmo)在论文中使用了与反事实概念相类似的表述,但这表述从严格意义上来说还算不上对反事实的准确定义。进入20世纪90年代后,出现了一些较大变化。当时哈佛大学经济学院的著名计量经济学家吉多・因本斯( Guido Imbens)、麻省理工学院的劳动经济学家安格瑞斯特开始和唐纳德・鲁宾合作,将“鲁宾因果模型”引入经济学。

哈佛大学和麻省理工学院都位于美国马萨诸塞州剑桥市,地缘上的接近或许也是促成他们合作的一个原因。鲁宾和因本斯合著的《统计学、社会科学及生物医学领域中的因果推理导论》 Causal Inference for Statistics and Biomedical Sciences, an introduction)以他们多年来在哈佛大学经济学院的课堂讲义为基写而成,2015年出版后旋即被誉为“因果推理”领域最经典的教科书。

因果推理在经济学领域的历史不长是有原因的。因为流行病学和生物统计学可以进行“临床试验”等实验,但是经济学等社会科学领域则很难组织实验。以人类为对象的实验除了资金和伦理方面的问题之外,大多还会伴随政治层面的难题。这些因素使得因果推理一直无法在经济学领域得到普及。

然而,进入21世纪以后,经济学领域出现了一些新动向。芝加哥大学的实验经济学家约翰・A.李斯特( John A.List)以及由发展经济学家们组成的麻省理工学院扶贫实验室(J-PAL)的学者们克服重重障碍,开始进行大规模社会实验。

扶贫实验室堪称“实施随机对照试验”的专业组织,所有研究均采用随机对照试验。他们以“把易受政治风向左右的政策变为有理有据的政策”为目标,成功提高了随机对照试验的地位使其成为“政策评估的理想方式”。

在经济学中,根据因果推理来评估政策效果的研究领域叫作政策评估”,近年来该领域正在快速形成体系。

流行病学领域的因果推理

除经济学和统计学之外,因果推理的思维方式在其他学科中也得到了发展。其中之一便是流行病学。如果说“医学”是以个体为对象,研究其患病原因和治疗方法,那么“流行病学”就是要研究集体的患病原因和预防方法。医生、护等拥有医学背景知识的读者或许对流行病学领域的因果推理更为熟悉。20世纪90年代中期,犹太裔的美国计算机科学家朱迪亚・尔( Judea Pearl)开发了运用有向无环图(DAG)来证明因果关系的方法。后来哈佛大学的詹姆斯・罗宾斯( James Robins)和米格尔・埃尔南( Miguel Hernan)、加州大学洛杉矶分校的柔德林兰( Sander Greenland)等人将有向无环图推广到医学及流行学领域。最终,医学院和公共卫生研究接的了这种方法并将其编入教材。

因果推断书单推荐


目录


  • Causal Inference for Statistics, Social, and Biomedical Sciences: An Introduction

  • Causal Inference: What If

  • The Book of Why : The New Science of Cause and Effect

  • Causality:Models, Reasoning and Inference

  • Counterfactuals and Causal Inference:Methods and Principles for Social Research

  • Mostly Harmless Econometrics: An Empiricist's Companion

  • mastering econometrics

  • 基本有用的计量经济学

  • 欢迎补充


1





Causal Inference for Statistics, Social,

and Biomedical Sciences:An Introduction


内容简介:社会和生物医学科学中的大多数问题在本质上都是因果关系:如果个人或群体的部分环境被改变了,他们会发生什么?在这篇开创性的文章中,两位世界著名的专家提出了研究这类问题的统计方法。这本书以潜在结果的概念开始,每一个对应的结果将被实现,如果一个主题暴露在一个特定的治疗或制度。在这种方法中,因果效应是对这些潜在结果的比较。因果推理的基本问题是,我们只能观察到一个特定主题的一个潜在结果。作者讨论了随机实验如何让我们评估因果效应,然后转向观察性研究。他们列出了因果推断所需的假设,并描述了主要的分析方法,包括匹配、倾向评分方法和工具变量。




2





Causal Inference: What If


内容简介:本书由哈佛大学 Miguel Hernan、Jamie Robins 教授编著,对因果推理的概念和方法做了系统性阐述。该书在知乎等各大平台一直是呼声很高的书籍,众多计量学者期待已久,目前该书。


书籍开源地址:https://www.hsph.harvard.edu/miguel-hernan/causal-inference-book/


下载地址:https://cdn1.sph.harvard.edu/wp-content/uploads/sites/1268/2019/10/ci_hernanrobins_14oct19.pdf




3





The Book of Why

The New Science of Cause and Effect

作者: [美]朱迪亚·珀尔(Judea Pearl) / [美]达纳·麦肯齐(Dana Mackenzie)

出版社: 中信出版集团股份有限公司

副标题: 关于因果关系的新科学

原作名: The Book of Why : The New Science of Cause and Effect

译者: 江生 / 于华

出版年: 2019-7-1


内容简介:在本书中,人工智能领域的权威专家朱迪亚·珀尔及其同事领导的因果关系革命突破多年的迷雾,厘清了知识的本质,确立了因果关系研究在科学探索中的核心地位。而因果关系科学真正重要的应用则体现在人工智能领域。作者在本书中回答的核心问题是:如何让智能机器像人一样思考?换言之,“强人工智能”可以实现吗?借助因果关系之梯的三个层级逐步深入地揭示因果推理的本质,并据此构建出相应的自动化处理工具和数学分析范式,作者给出了一个肯定的答案。作者认为,今天为我们所熟知的大部分机器学习技术,都建基于相关关系,而非因果关系。要实现强人工智能,乃至将智能机器转变为具有道德意识的有机体,我们就必须让机器学会问“为什么”,也就是要让机器学会因果推理,理解因果关系。或许,这正是我们能对准备接管我们未来生活的智能机器所做的最有意义的工作。


推荐理由:

在此之前,珀尔教授已经出版过三部因果关系科学的专著,读者群仅限于数据分析或者人工智能的研究者,影响范围很窄。这本书则是这些专著的科普版,其面向更广泛的读者群体,着重阐述思想而非拘泥于数学细节。对渴望了解因果推断的人们来说,它既是因果关系科学的入门书,又是关于这门学问从萌发到蓬勃发展的一部简史,其中不乏对当前的人工智能发展现状的反思和对未来人工智能发展方向的探索。正如作者所期待的,这场因果革命将带给人们对强人工智能更深刻的理解。






4





Causality:

Models, Reasoning and Inference


作者: Judea Pearl

出版社: Cambridge University Press

副标题: Models, Reasoning and Inference

出版年: 2009-9-14


本书由该领域一位杰出的研究人员撰写,全面阐述了现代因果关系分析。它展示了因果关系是如何从一个模糊的概念发展成为一个数学理论,并在统计学、人工智能、经济学、哲学、认知科学、卫生和社会科学等领域有重要的应用。提出并统一了概率的、可操作的、反事实的和结构性的因果关系方法,并设计了简单的数学工具来研究因果关系和统计关联之间的关系。它被2100多份科学出版物引用,继续将科学家从传统的统计思维模式中解放出来。该书阐述了棘手的问题,回答了读者的问题,并提供了该领域的最新研究进展的全景。因果关系将是兴趣的学生和专业人员在各种各样的领域。


5





Counterfactuals and Causal Inference


作者: Stephen L. Morgan / Christopher Winship

出版社: Cambridge University Press

副标题: Methods and Principles for Social Research

出版年: 2014-11-17


目录

List of Figures page xiii
List of Tables xvii
Acknowledgments for First Edition xxi
Acknowledgments for Second Edition xxiii
I Causality and Empirical Research in the Social Sciences
1 Introduction 3
1.1 The Potential Outcome Model of Causal Inference 4
1.2 Causal Analysis and Observational Social Science 6
1.3 Examples Used Throughout the Book 14
1.4 Observational Data and Random-Sample Surveys 27
1.5 Causal Graphs as an Introduction to the Remainder of the Book 29
II Counterfactuals, Potential Outcomes, and Causal Graphs
2 Counterfactuals and the Potential Outcome Model 37
2.1 Defining the Causal States 37
2.2 Potential Outcomes and Individual-Level Treatment Effects 43
2.3 Treatment Groups and Observed Outcomes 44
2.4 The Average Treatment Effect 46
2.5 The Stable Unit Treatment Value Assumption 48
2.6 Treatment Assignment and Observational Studies 53
2.7 Average Causal Effects and Naive Estimation 54
2.8 Over-Time Potential Outcomes and Causal Effects 62
2.9 The Potential Outcome Model for Many-Valued Treatments 70
2.10 Conclusions 73
2.11 Appendix to Chapter 2: Population and Data Generation Models 74
3 Causal Graphs 77
3.1 Identification 78
3.2 Basic Elements of Causal Graphs 79
3.3 Graphs and Structural Equations 84
3.4 Causal Graphs and the Potential Outcome Model 90
3.5 Conclusions 94
3.6 Appendix to Chapter 3: Graphs, Interventions, and Potential Outcomes 95
III Estimating Causal Effects by Conditioning on Observed Variables to Block Back-Door Paths
4 Models of Causal Exposure and Identification Criteria for Conditioning Estimators 105
4.1 Conditioning and Directed Graphs 105
4.2 The Back-Door Criterion 109
4.3 Models of Causal Exposure and Point Identification Based on the Potential Outcome Model 118
4.4 Conditioning to Balance and Conditioning to Adjust 128
4.5 Conclusions 130
4.6 Appendix to Chapter 4: The Back-Door and Adjustment Criteria, Descendants, and Colliders Under Magnification 130
5 Matching Estimators of Causal Effects 140
5.1 Origins of and Motivations for Matching 141
5.2 Matching as Conditioning via Stratification 143
5.3 Matching as Weighting 150
5.4 Matching as a Data Analysis Algorithm 158
5.5 Remaining Practical Issues in Matching Analysis 181
5.6 Conclusions 187
6 Regression Estimators of Causal Effects 188
6.1 Regression as a Descriptive Tool 188
6.2 Regression Adjustment as a Strategy to Estimate Causal Effects 194
6.3 Regression as Conditional-Variance-Weighted Matching 206
6.4 Regression as an Implementation of a Perfect Stratification 214
6.5 Regression as Supplemental Adjustment When Matching 215
6.6 Extensions and Other Perspectives 217
6.7 Conclusions 224
7 Weighted Regression Estimators of Causal Effects 226
7.1 Weighted Regression Estimators of the ATE 227
7.2 Weighted Regression Estimators of the ATT and the ATC 231
7.3 Doubly Robust Weighted Regression Estimators 234
7.4 Remaining Practical Issues in Weighted Regression Analysis 238
7.5 An Extended Example 243
7.6 Conclusions 262
IV Estimating Causal Effects When Back-Door Conditioning Is Ineffective
8 Self-Selection, Heterogeneity, and Causal Graphs 267
8.1 Nonignorability and Selection on the Unobservables Revisited 268
8.2 Selection on the Unobservables and the Utility of Additional Posttreatment Measures of the Outcome 269
8.3 Causal Graphs for Complex Patterns of Self-Selection and Heterogeneity 278
8.4 Conclusions 290
9 Instrumental Variable Estimators of Causal Effects 291
9.1 Causal Effect Estimation with a Binary IV 291
9.2 Traditional IV Estimators 296
9.3 Instrumental Variable Estimators in the Presence of Individual-Level Heterogeneity 305
9.4 Conclusions 324
10 Mechanisms and Causal Explanation 325
10.1 The Dangers of Insufficiently Deep Explanations 326
10.2 The Front-Door Criterion and Identification of Causal Effects by Mechanisms 330
10.3 The Appeal for Generative Mechanisms 338
10.4 The Pursuit of Explanation with Mechanisms That Bottom Out 346
10.5 Conclusions 352
11 Repeated Observations and the Estimation of Causal Effects 354
11.1 Interrupted Time Series Models 355
11.2 Regression Discontinuity Designs 360
11.3 Panel Data 363
11.4 Conclusions 392
11.5 Appendix to Chapter 11: Time-Varying Treatment Regimes 392
V Estimation When Causal Effects Are Not Point-Identified by Observables
12 Distributional Assumptions, Set Identification, and Sensitivity Analysis 419
12.1 Distributional Assumptions and Latent Variable Selection-Bias Models 420
12.2 Set Identification with Minimal Assumptions 422
12.3 Sensitivity Analysis for Provisional Causal Effect Estimates 429
12.4 Conclusions 434
VI Conclusions
13 Counterfactuals and the Future of Empirical Research in Observational Social Science 437
13.1 Objections to Adoption of the Counterfactual Approach 438
13.2 Modes of Causal Inquiry in the Social Sciences 446
References 451
Index 497


6





Mostly Harmless Econometrics: 

An Empiricist's Companion


由Joshua D. Angrist和Jörn-Steffen Pischke合作撰写的计量经济学经典著作Mostly Harmless Econometrics: An Empiricist's Companion详细介绍了应用实证研究中的核心计量工具,为社会科学研究者提供了一份精炼的操作指南。


作者从因果关系及其识别的角度展开了本书的论述。对于社会科学研究者而言,其所关心的一个核心问题便是因果推论,即探讨某一事件产生的原因及其影响。这对于结果预测和政策制定都具有重要意义。那么,因果推论该如何进行呢?通常而言,利用观测数据对受某一事件影响的群体和未受该事件影响的群体进行比较是最直观的研究方法。然而,由于反事实的无法获得及选择性偏误(selection bias)的存在,上述影响并非真正的因果联系。在本书作者看来,要展开因果推论,随机实验是最具可信度、最有影响力的一种研究设计,并从数学推导和研究例证(如Tennessee STAR experiment)两方面为此提供了充分证据。


然而,随机实验耗时长、成本高、可能遭遇学术伦理问题,因此对大多数学者来说未必具有现实可操作性。为此,本书作者以随机实验为基准(benchmark),把目光转向了自然实验(natural experiment)及准自然实验(quasi-experiment)。利用自然实验及准自然实验进行因果推断,需要充分利用本书所关注的核心计量工具:多元回归分析、工具变量方法(IV)和双重差分策略(DID)。本书在第三章主要讨论了多元回归分析方法。这一方法主要是指在控制了其他与残差项不相关的变量之后,用被解释变量对核心解释变量进行回归分析。该方法对提高估计准确性并揭示可能的因果关系大有裨益,而且也是接下来讨论的IV、DID等工具之基础。IV在本书第四章得到讨论。尽管工具变量不易寻找,但一旦找到合适的工具变量之后,使用两阶段普通最小二乘法便可较为精准地获得因果联系。当然,工具变量方法并非万无一失,局部有效性(LATE)等问题也受到了作者高度关注。DID在本书第五章得到呈现。作为处理遗漏变量问题、进行因果推论的有效方法,双重差分同样备受作者重视。与此相关,作者还在本章中就固定效应及面板数据处理进行了细致分析。以上便是本书的核心内容。接下来本书还进行了一些拓展讨论,主要涉及断点回归分析、分位数回归分析及回归分析中的标准差处理。


值得一提的是,不同于一般的计量经济学教科书,本书具有如下几方面有必要说明的特点:首先,本书并不对各种计量方法进行面面俱到的介绍,而是主要讨论在实证操作中处于核心地位的几类方法,对基本概念和技术问题的强调也穿插于核心方法的介绍及操作例证的讲解之中;其次,一般的计量经济学教科书非常关注经典假设及其违反的情况,本书则对此保持更为宽容的态度,并未在此花费太多篇幅;最后,在回归结果的统计性质中,本书更重视无偏性与一致性,对有效性的关注相对较弱。



7





功夫计量




到底什么是功夫计量中的“盖世五侠”?

该书为计量经济学研究提供了五个最有用的工具,即“盖世五侠”——随机实验、回归、工具变量、回归断点设计以及双重差分。


计量大师 Joshua  Angrist在Marginal Revolution University中已经开设了免费的视频学习课程,视频链接:https://mru.org/mastering-econometrics。



8





基本有用计量经济学



推荐理由:该书主要特色是利用潜在结果语言和因果图介绍各种识别策略。全书以随机化实验为基础,首先介绍了潜在结果和分配机制的概念,并利用潜在结果定义因果效应。然后介绍了随机化实验,一种特殊的分配机制,可以消除选择偏差,成为观测研究中各种识别策略的基础。所有的识别策略都是通过一定的设计模拟随机化实验,从而得到可信的因果效应估计。另外,作者还简要介绍了因果图方法,它是与潜在结果框架完全等价的因果模型,但是更加直观,容易使用。在这三个理论的基础上,本书介绍了线性回归、匹配方法、工具变量法、面板数据方法和断点回归设计等几种在观测研究中常用的因果效应识别策略。最后,对于每种识别策略,作者还利用具体实例讲解各策略在Stata软件中的实现。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存