查看原文
其他

凡是搞计量经济的,都关注这个号了

稿件:econometrics666@126.com

所有计量经济圈方法论丛的code程序, 宏微观数据库和各种软件都放在社群里.欢迎到计量经济圈社群交流访问.

上一日,“Acemoglu终于对中国学术界的问题下手了!”受到很多很多学者的讨论。

正文

关于下方文字内容,作者:和纳,新加坡南洋理工大学商学院科技创新与企业管理,通信邮箱:bandiangou121@foxmail.com

Miguel, Edward. 2021. "Evidence on Research Transparency in Economics." Journal of Economic Perspectives, 35 (3): 193-214.
A decade ago, the term "research transparency" was not on economists' radar screen, but in a few short years a scholarly movement has emerged to bring new open science practices, tools and norms into the mainstream of our discipline. The goal of this article is to lay out the evidence on the adoption of these approaches—in three specific areas: open data, pre-registration and pre-analysis plans, and journal policies—and, more tentatively, begin to assess their impacts on the quality and credibility of economics research. The evidence to date indicates that economics (and related quantitative social science fields) are in a period of rapid transition toward new transparency-enhancing norms. While solid data on the benefits of these practices in economics is still limited, in part due to their relatively recent adoption, there is growing reason to believe that critics' worst fears regarding onerous adoption costs have not been realized. Finally, the article presents a set of frontier questions and potential innovations.
引言:
十年前,“研究透明”和“开放数据”并没有出现在大多数经济学家或其他社会科学家的研究上。然而,一场新的学术运动已经联合起来,将新的开放科学实践、工具和规范带入主流。一些著名的社会科学组织已经涉足这一领域,包括开放科学中心(cos.io)、心理科学改进协会(improvingpsych.org)和伯克利社会科学透明度倡议中(bitss.org)。本文的目的是在开放数据、预注册和预分析计划以及期刊政策三个特定领域展示采用这些方法的新证据,并初步评估它们对经济学研究质量和可信度的影响。
在社会科学中,这些规范一个方面是学术界其他人复制已发表研究结果的基本能力,从而充分理解这些研究结果是如何产生的以及可能进行哪些替代分析。在经济学方面,相对而言,只有很少的论文能够实现计算再现性的基本目标,即使用公开共享的材料生成论文中的结果。这在很大程度上与复制数据和代码的质量有关,这些数据和代码通常不完整或记录不完整。此外,开源数据和研究透明度运动旨在减少研究者或是在研究实践和出版决策出现的偏见。实证经济学研究(以及政治学和社会心理学等相关定量领域)中存在大量普遍问题的证据。当无效结果从公众视野中消失时,这些不成文的发现实际上会被更广泛的研究界所遗忘。结果是,查看已发表的研究可能会产生关于知识和公共政策重要性主题的误导性结论。空值的消失也浪费资金和人力,因为它重复了早先其他学者在研究中的一些工作内容。
在下面的讨论中,我提供的证据表明,经济学现在正处于一个数据开源、预注册和预分析以及期刊政策领域向透明度规范化快速过渡的时期。并通过研究发现有迹象表明这些做法至少会带来一些社会效益。批评家们对开放性研究带来的潜在成本担心——如繁重的采用成本或扼杀创造目前都尚未实现。最后,需要文化在未来进行变革来加强和维持经济学中已经发生的这些变化。
一、开源数据
20世纪90年代的完成一篇论文所要获取的数据和分析脚本都是具有很大挑战性的,但是在过去25年间,随着互联网的发展以及学术期刊和学术协会的政策改变,经济学中特别是美国经济协会(AEA)在2005年颁布的数据共享政策,促进了数据的共享,最直接的影响是该政策导致《美国经济评论》发布的数据和分析代码的文章激增,并伴随着其他一些普刊和相关领域期刊也纷纷效仿该政策,这导致了在较短时间内,我们学科中已发表研究的数据访问量急剧增加。
图表一:经济学研究中的透明开放度在逐年上升

注释:图表显示了某一年发表的报告在该年或之前首次完成开放科学实践的作者比例。黑色实线显示了当年完成任何开放科学实践的已发表作者的比例。绿色虚线显示了当年在网上发布数据或代码的比例。紫色虚线显示了当年在网上发布研究工具的已发表作者的比例。橙色虚线显示了当年之前预先登记分析或假设的比例。在线发布研究工具是针对以下问题的回答:“您第一次公开将研究工具发布到网上大约是什么时候?”将数据或代码发布到网上是对以下问题的回答:“您第一次公开将数据或代码发布到网上大约是什么时候?”预注册假设或分析是对以下问题的回答:“您第一次在研究之前预注册假设或分析大约是什么时候?”样本仅限于2009年完成博士学位的已发表作者。(N=204)
图表1: 说明了经济学中数据共享的兴起,基于对 2014-2016 年间在前十名经济学期刊(以及其他社会科学领域,尽管我们在这里讨论经济学)上发表论文的学者的代表性调查样本的尝试,我们得到了大概50%较为可观的回应率。虽然样本中在 2005 年左右(在采用 AEA 政策之前)共享数据的经济学家相对较少,但到2017年,近90%的经济学家至少公开共享过一次数据。同时在共享研究工具(例如实地调查或实验室协议)方面也有类似的趋势,尽管水平较低;尽管随着时间的推移,预注册和预分析机制的采用较少(在下章中有所讨论)。
许多经济学期刊现在直接在自己的网站上存储数据和代码,而互联网数据存储库也越来越受欢迎,包括著名的机构如哈佛的dataverse和ICPSR等,这些技术已经取得了如此迅速的成功,以至于人们很容易忘记专业管理、存储和管理研究数据和代码是多么重要的创新。
然而,期刊数据共享政策并非万灵药。仅仅是复制的威胁可能只会对那些不希望自己的研究获得广泛兴趣或引用的学者的学术诚信提供微弱的激励。已发表论文的复制材料通常记录得很差,而且组织混乱。部分出于对这些担忧的回应,美国经济协会在2019年采用了一套新的、更雄心勃勃的数据共享标准:更新后的AEA数据和代码可用性政策可以在https://www.aeaweb.org/journals/policies/data-code上找到。一些关键的补充是要求在最终论文接受之前将数据和代码提交给AEA期刊,并将其发布在数据存储库(openICPSR,而不是期刊网站)上。此外,AEA数据编辑和相关工作人员的角色也得到了扩展,他们在可行的情况下对分析结果进行出版前的验证,其中数据编辑的角色是评估计算的重现性,而不是去判断潜在的计量经济学选择的适当性。在AEA期刊上,数据编辑的团队在2019年7月至11月期间对138篇论文进行了216篇发表前评估,其中没有一篇论文存在“根本缺陷”,这意味着发现的任何问题都与作者沟通,并在发表前解决。
值得注意的是 AEA 数据要求和一般开放数据政策的几个限制。首先,并非所有数据都可以被 AEA 团队访问——例如,如果它是专有的或受政府保密限制的。在这些情况下,一种选择是由有权访问作者论文中使用的数据的第三方复制者验证结果;有关详细信息,可以参考网站https://aeadataeditor.github.io/aea-de-guidance/protocol-3rd-party-replication.html。其次,在大多数情况下,通过 AEA 流程共享的数据不是详细的微观数据,而是汇总和处理的文件。发布原始基础数据(在可能的情况下)将为更广泛的研究界产生额外的社会价值,鼓励这样做的举措将成为 AEA 和其他经济学协会和期刊未来开放数据改革的主要方向。
然而,通过在AEA期刊范围内纳入相对高质量的复制材料,该协会提高了该领域的标准,并使经济学接近于其他科学学科中被认为是“最佳实践”的方法,如提高透明度和促进开放性,在我看来,其他经济学期刊最终可能会效仿,就像2005年AEA准则实施后一样。. 根据获取开放数据以及下文讨论的其他实践的 TOP 准则, AEA期刊目前被列为最符合开放科学标准的期刊(在50种被引用最多的经济学期刊中),其最高分数与领先的综合科学类期刊如《自然》和《科学》相似。
令人印象深刻的是,97%的经济学家在Swansonⓡal.(2020)的调查数据中表示支持数据共享——尽管受访者认为他们的同事对研究透明度实践的支持始终低于受访者声明的支持。然而大多数经济学家认为,数据共享的增加是值得的,但评估成本、私人利益和社会利益仍然很有价值。
在成本方面,根据个人的经验和轶事,为即将发表的文章准备材料所需的时间可能需要几个小时到几周的工作时间。项目间的差异当然与基础数据集的大小和复杂性有关,但也受数据、代码和文档材料在项目进行过程中是否放在一起,或者是否需要在分析完成后进行组装的影响很大。从几年前完成的项目中创建记录数据和代码材料可能特别耗时且困难。
然而,转向一个新的规范(几乎)普遍共享数据和代码意味着今天的经济学家知道他们将需要与其他学者分享这些材料前进,如发表于著名期刊AEA。并鼓励他们对自己的代码进行慷慨的评论,清晰地标记变量,编写自述文件,并在编写过程中保持材料的有序性。
关于准备数据和代码材料的时间成本,有一些定量的证据。自2016年以来,发展经济学研究机构创新扶贫行动(IPA)资助工作人员为其支持的实地数据收集项目准备复制材料,并记录了所需时间(IPA 2020)。在这65个项目数据集中,准备用于公共共享的复制材料的平均时间为31.5小时,四分之一区间为10.0 - 40.5小时(第10 - 90百分位数区间为5.8 - 80.2小时)。对于大多数项目来说,这是微不足道的。但是,这种准备时间的预测只适用于现场实验,这些实验通常需要多年的数据收集工作,因此它在整个项目工作时间中所占的份额非常小。
一个经常被讨论的问题是,对于缺乏资源聘请专门研究助理的学者来说,增强数据和代码共享要求将特别繁重,从而加剧研究人员之间现有的不平等。对于处于职业生涯早期阶段或未在资源丰富的机构工作的学者,包括许多中低收入国家的学者,收集数据和代码以发布的工作时间(平均)为31.5小时,需要在夜间和周末进行,考虑到已经很重的教师教学负担和管理责任。一个有希望的解决方案可能是让更多的研究资助者投入资源,使数据和代码公开,例如IPA、伯克利社会科学透明度倡议(BITSS)和杰米尔贫困行动实验室(J-PAL)最近所做的努力。除了为所有经济学家提供更公平的竞争环境外,扩大数据集和代码编制的资金将有助于调整私人和社会激励措施,以创造这些研究公共产品。
从新的开放数据规范中亲身体验到最直接的好处是,我们自己的研究数据为我们自己利用得更好,更容易用于其他分析和论文(如自述文件和其他复制材料),许多学者(包括我自己)经常在收集数据文档材料和完成准备好与其他学者分享的数据集所需的最后苦差事上拖延,但是这样的期刊政策也使得论文最终被接受和发表能够获得更多关注度。
公共数据共享的另一个私人好处是,它有可能导致其他人进一步开展相关工作,从而提高引用率和影响力。AEA、其他期刊和几乎所有数据库的政策提高了数据共享产生引用的可能性,并为发布的研究数据集提供数字对象标识符(DOI)。许多学者已经表明,文章的数据共享程度与该论文的较高引用成正相关,尽管仍有明显忽略了与数据共享决策的非随机性相关的变量担忧。
Christensen,Dafoe等人认为,他们试图将2005年AEA数据共享政策作为一项自然实验来解决数据共享的可能选择。特别是,在比较了2005年政策变化前后四年AER和《经济学季刊》(QJE)上发表的论文。AER文章的数据和代码的可用性迅速增加,而在我们的研究期间,QJE(直到2016年才采用可比数据政策)的数据可用率仍然较低。此外,政策改变后,在AER上发表的文章的平均引用量(截至2017年11月)增加了约50%。考虑到两种期刊的样本,这些结果应该被视为具有挑衅性,而不是确定性。然而,发布数据和代码可能会产生更高的引用率,这将产生强大的私人激励来支持开放数据,并可能有助于解释为什么开放数据很快成为经济学研究中的一个强有力的规范。
一个可能的社会效益是,开放数据可能使其他学者更容易发现学术造假:例如,政治科学和社会心理学中的学术造假发现是由《开放数据政策》杂志促成的。在一个生动例子中,Broockman、Kalla和Aranow(2015)从科学网站下载了复制数据和代码,并发现了统计异常,包括关键指标变化太小,他们正确地得出的结论与由随机数发生器生成的数据一致,而不是在现场收集的数据。经济学中的开放数据规范比其他社会科学研究早几年出现,这一优势可以部分解释为什么近年来我们学科中出现的引人注目的研究欺诈案例较少。
也许,公开数据最广泛讨论的潜在社会效益是它为其他学者提供了一个机会,以获得对研究的更深入的理解,并从中进行构建。例如,再分析可以考虑研究结果的稳健性:也就是说,研究结果是否随着规范或研究方法的适度改变而发生实质性变化?复制可以将相同的研究方法应用于不同的数据集。更广泛地说,可以通过查看底层模型中变化的结果、较长时间内的数据等等来扩展早期的研究结果。这样,接受研究透明度也可以是迈向更公平、更包容的学术社区的一步。我相信,从长远来看,将实证分析的副本作为规范,将对经济学产生重大的科学效益。实际上,正如马克西米利安•卡西(Maximilian Kasy)在本次研讨会的论文中解释的那样,后来的重复研究结果可以让其他学者量化经济学的发表偏倚程度,并结合相关的计量经济学方法予以纠正。
然而,研究人员获取之前研究数据和代码的能力不断增强,这导致了一些争议(讨论请参见Christensen和Miguel 2018)。Gertler, Galiani和Romero(2018)指出,可能存在“推翻偏差”,即与最初发表的论文相矛盾的再分析和重复被认为更容易发表。通过确保“成功”的复制也被发表,而不仅仅是那些声称揭穿早期发现的复制,在一定程度上解决这一动机是很重要的。其他重复写作的作者也可能受到个人或金钱利益冲突的激励——例如,如果他们的研究是由研究发起者资助的,而该研究发起者对手头问题的答案有经济利益关系,例如制药公司或能源公司,这使得强烈的利益冲突下对于数据披露的要求更加必要。
但最终,在我看来,由于数据和代码更加开放,对复制的许多担忧正在加剧,因为我们处于一个过渡阶段,即在早期(如我的研究生时代),数据很少可用,也很难复制相关研究数据,在不久的将来,结果的可重复性和其他数据检查(如 AEA 期刊中的那些)将成为研究人员和期刊的必备条件。
退一步讲,对于数据共享需求的扩展,最重要的挥之不去的担忧可能是收集新数据的动机可能会降低。正如Christensen Freese和Miguel(2019)所指出的:“数据是经验科学的生命线,如果数据共享政策减少了收集到的重要数据的数量,这将是一个反常的结果。”显然,需要平衡这些生成新数据的激励措施与更大程度共享此类数据的社会收益,而要做到这一点,像临时“数据禁运”(类似于技术专利的精神)这样的方法可能是有用的。延续目前学者们自己生成的数据使用时间限制垄断权的规范,对于激励研究人员开展雄心勃勃的未来数据收集项目至关重要。关于如何在这些相互竞争的问题之间取得适当的平衡,以制定经济学中最有效的数据共享政策,还需要更多的思考和辩论;在这样做的过程中,学习其他科学领域的经验将是有益的。
二、预注册和预分析计划
在过去15年中,在经济学领域发生的开放科学创新中,创建研究登记机制和越来越多地使用预分析计划可以说是对以往研究实践的重大突破。自2013年成立以来,AEA随机对照试验注册中心已实现指数级增长;截至2021年1月,注册了4200多项研究,如图2所示。登记处要求提供基本研究特征,如数据的地点、时间和内容、机构审查委员会的批准以及其他一些内容。自2017年以来,有45%新注册的前瞻性研究也发布了预分析计划,并对如何分析进行了更详细的分步描述。其他社会科学也在发生类似的变化:政治科学、政府和政治实验注册制(EGAP)也被广泛应用;在心理学方面,大多数学者要么在开放科学框架(OSF)上注册,要么就根据预测进行。
图表2: 随时间推移发表的研究:美国经济协会随机对照试验登记制

资料来源:该图由Garret Christensen、Edward Miguel和Sarah Stillman制作,现公开于https://doi.org/10.7910/DVN/FUO7FC。随机对照试验在AEA注册中的研究(按季度计算)。数据下载于2021年1月31日https://www.socialscienceregistry.org/。没有显示2021年第一季度的季度数据(因为到目前为止只有该季度第一个月的数据)。
预注册和预分析计划有几种形式。首先,注册处创建了一个“书面记录”,可以帮助在某一领域工作的学者学习关于彼此正在进行的工作。其次,预注册和预分析计划产生了问责性:研究社区的其他成员(包括期刊审稿人)可以看到学者最初打算问哪些问题,这可以通过增加所有结果(包括无效结果)的报告来帮助减少发表偏倚。AEA注册中心选择将预分析计划暂时保密(例如,在一篇有结果的论文发表之前),这减少了其他学者会通过注册中心“挖掘”特别创新想法的担忧。第三,预分析计划可以减轻研究人员强调某一部分结果带来的压力,这些结果可能会受到政府官员、研究资助者甚至同事的青睐。最后,在我看来,预注册和预分析的一个未被充分认识的好处是,它通过促使学者们事先更仔细地考虑他们的设计和数据,提高了研究的质量。我回到下面这一点。
一方面是潜在的成本。首先,Olken(2015)提到了时间成本,而时间成本又取决于AEA登记册要求的基本研究特征以外的详细程度。第二,要担心的是,分析工作预先施加的限制可能会产生缺乏创造性和趣味性学术作品,并且可能较难出版。然而对我来说,第二个担忧似乎被夸大了。经济学中很快出现了一种规范,允许甚至鼓励作者对预先指定的内容进行额外分析。但需要注意的是,作者必须透明地报告他们计划中的内容和内容。事实上,据我所知,《经济学》杂志上发表的前两篇采用预分析计划的论文,即Finkelstein等人(2012年)和Casey、Glenerster和Miguel(2012年),都描述了为什么他们认为有必要发表一些超出预分析计划的分析。鉴于AEA注册中心最近成立的情况,虽然我们还不确定注册机制在经济学中的长期作用,但我们可以从其他领域的经验中学习。特别是经济学中随机对照试验被医学领域相关试验的应用所超越,同时经济学中AEA注册中心的创建直接受到2000年成立的ClinicalTrials.gov的启发。
临床试验研究中记录了注册机制的几个好处。首先,可以评估已发表的论文如何偏离最初的计划。许多研究在医学研究中审计了这些偏差(如Mathieu et al. 2009),这在经济学中很容易被采用,可以立即提供更大程度的问责,并确保更少的结果消失。
第二,在医学研究中建立临床试验登记处似乎会导致更多报告的无效结果。在卡普兰和欧文(2015)复制的图3中,每个点代表一项由美国国立卫生研究院(National Institutes of Health)同一个资助部门资助的营养补充剂研究;所有被选为资助对象的事实提供了一定程度的研究可比性和质量控制。竖线标志着临床试验网ClinicalTrials.gov于2000年成立。这里的前后研究设计显然不理想,但模式是惊人的。在登记之前,大多数公布的结果在统计上是显著的,并显现出优势。linicalTrials.gov建立之后,医学期刊开始要求研究注册作为发表要求(De Angelis et al. 2004),更多的无效结果出现在文献中,事实上,几乎没有任何显著的阳性结果出现。
图三:按出版年份划分的治疗相对风险

资料来源:数据来自大型NHLBI药物和膳食补充剂干预试验。积极的尝试用加号表示,而有害的尝试用圆圈内的对角线表示。在2000年之前,临床试验没有在临床试验网站注册,结果有很大的可变性。在要求试验在临床试验网站上预先注册之后,主要结果的相对风险显示出相当小的可变性大约在1.0左右。
在2000年之前的几十年里,在医学研究中,涉及到自私自利的制药公司资助的临床试验的丑闻不断,往往伴随着一些证据,表明会损害这些公司的底线的“无效”试验结果系统地不被报告(Turner et al. 2008)。试验注册的存在,加上期刊要求预先注册,使得这项工作更加困难,使临床试验文献更加可信。
类似的好处会出现在经济学中吗?在经济学(和政治学)中,关于预登记和预分析计划的实际使用和影响的最详细证据来自Ofosu和Posner的两篇论文(2020a,2020b)。Ofosu和Posner(2020a)审查了2011年至2018年国家经济研究局发布的所有工作文件,并搜索了所有使用实验(现场和实验室)研究方法的工作文件,因为这些方法最有可能预登记和编写预分析计划。然后,他们在这些工作文件中搜索那些也提到预分析计划的文件。在此期间,总共有8.4%的实验性工作论文提到存在相关的预分析计划,且比率随时间而上升。Ofosu和Posner随后确定这些论文中的哪篇最终发表(以及在哪里发表),并通过网络搜索收集截至2019年Google Scholar的总引用次数。他们询问使用预分析计划的经济学实验论文是否与未使用预分析计划的经济学实验论文具有不同的发表和引用轨迹。当然,采用预分析计划并不是随机分配的,但他们认为,他们将重点放在使用实验方法的论文的子领域上,而且事实上,所有这些都是由NBER附属机构编写的,这意味着他们没有将苹果与橘子进行比较。尽管如此,作者强调,研究结果应该被视为“提示性”。
Ofosu和Posner发现,有预分析计划的研究被发表的总体可能性(44%)略低于没有预分析计划的研究(54%),尽管这种差异在传统水平上并不显著。然有预分析计划的研究在排名“前五”的经济学期刊上发表的可能性是其他研究报告的两倍多(27%对12%)。到2019年,与预分析计划相关的研究的引用量也会增加60%。作者没有提供一个明确的答案,为什么预先分析计划的研究得到更多的引用,并发表在更有声望的期刊。其中一种可能是,实力更强的研究人员倾向于更早地采用预分析计划,或者对他们最有前途的项目采用预分析计划。另一种可能性是,有预分析计划的研究如果得到一个无效发现,可能会发现更容易被接受发表在期刊上:例如,2012年的前两篇预分析计划论文所包含的结果都可能被视为无效或与一些学者的先前研究相违背,但仍在领先期刊上发表。最后,也许编写预分析计划的过程可以改进研究,从而产生更优秀的学术论文,更容易在主要期刊和领域进行发表。
他们的第二项研究(Ofosu和Posner)建立在一项新颖的调查之上,调查对象是经济学和政治学的学者,他们属于专门从事实验研究的相关领域,因此可能已经登记了关于他们的经验、实践的预分析计划。他们还审查了195个注册的预分析计划中具有代表性的子集的内容。这项调查有一些局限性。在接触者中,它的回应率相对较低(23%)。此外,它还侧重于2016年之前编写的预分析计划,该计划将这些数据放在预注册的早期。从那时起,数据规范可能已经有了更多的进步和规范。尽管如此,这些数据仍然是关于实际使用预分析计划的最佳定量信息来源。
经验产生了共鸣。大多数受访者还提到,这段时间并不是全部累加的,因为如果您已经花了数周的时间仔细规划将要运行的回归并思考如何避免某些缺陷,那么直接进入分析模式会更快。事实上,33%的受访者表示,“这些节省的时间等于或大于最初起草PAP的时间”(Ofosu和Posner)。也就是说,预分析计划可能会给一些学者带来更大的时间成本,可能是因为一些研究本质上更复杂,或者是因为一些研究人员倾向于编写非常详细的预分析计划(包括我自己),而其他人则专注于更紧密的分析问题。
调查证据还表明,编写分析前计划具有潜在的质量优势:“绝大多数人(10人中有8人)说,起草PAP使他们发现了有关他们项目的东西,从而改进了他们的研究方案和/或数据分析计划”。Ofosu和Posner主张,在注册研究计划之前,通过获得研究计划的早期反馈,找到利用预分析计划潜在优势的方法。事实上,预分析计划已经开始作为一种正常的研究成果被纳入一些场合,包括非洲政治经济工作组(WGAPE)会议。
最后,Ofosu和Posner(2020)沿着四个维度评估已登记的预分析计划:“指定明确的假设;足够明确地指定主要依赖和独立/治疗变量,以防止事后调整;以及详细说明待测试的精确统计模型。”这里的记录好坏参半。在他们的样本中,90%的预分析计划陈述了一个明确的假设,80%的预分析计划至少包含四个元素中的三个。然而,许多报告的结果不在最初的预分析计划中,没有始终清楚地标记它们。自2016年的数据以来,这种情况仍有可能有所改善,但最新的研究可以记录预分析计划的使用是如何随时间演变的。
Abrams、Libgober和List(2020)对AEA登记上列出的预分析计划进行了相关审计。他们指出,即使在不同的实验领域,关于注册的规范也有很大的差异,在进行实地实验的经济学家中,注册率很高,但在进行实验室实验的经济学家中,注册率要低得多. 它们还提供了一套有用的改革建议,包括可能要求在项目实施前进行登记,对公布研究结果提供更大的激励,以及公布机构审查委员会的材料。
我不能声称对预分析计划的收益是否超过其成本有一个最终的答案,尽管似乎很清楚,从AEA注册的早期关于繁重的时间成本和扼杀创造力的更可怕的预测并没有得到证实。当Ofosu和Posner (2020)直接提问时,64%的学者回答“(写一份PAP)需要相当多的时间,但值得”,而6%的人说“它不需要很多时间,所以成本很低,”这意味着70%积极从事这一领域工作的研究人员在很大程度上对成本效益比持肯定态度。这与80%的发展经济学家(Swansonⓡal 2020调查)一致,他们支持预先登记。
作为合著者、推荐人和顾问,我的感觉是,经济学家撰写的预分析计划的风格仍有相当大的差异:有些更详细,有些更少,有些包含更多的文献综述或概念性讨论,有些没有,等等。我自己的观点甚至是一个相对稀疏的预分析计划,列出主要结果、核心分析和主要回归规范,在解决选择性报告和数据挖掘的最极端形式以及发表偏差方面仍然有用。包括欧洲经济协会(European Economic Association)和计量经济学会(econometricsociety)在内的其他主要经济学协会,在注册方面已部分朝同一方向发展,并“鼓励使用随机对照试验的论文作者注册他们的实验”,但(尚未)强制要求。
迄今为止,预注册主要用于采用实验方法的领域,包括应用微观经济学领域(特别是发展经济学)和实验经济学。预登记和预分析计划在结构性计量经济工作中进展甚微,包括在产业组织、国际贸易和宏观经济学方面。在结构工作中实施预注册似乎更具挑战性,因为基本理论模型往往更为复杂,其构建和评估涉及无数的判断要求,这些要求可能难以提前预测和指定,也更难让外部观察者辨别。由此带来的研究人员自由度的增加可能使其更难发现有偏见的报道。在这些领域中,一个直接的前进方向(尽管是局部的)是至少预先指定研究过程的某些步骤,例如,定量练习中使用的特定参数(如跨期贴现率)的值,或待分析的特定数据集。在没有预先注册的情况下,需要在这些领域进行更广泛的讨论,以确定是否有其他替代方案可以提高透明度并同样限制黑客行为,以免我们看到随着时间的推移,经济学子领域的方法论漏洞越来越大。
三、期刊政策与实践
期刊政策和实践对任何科学领域的规范制定都有影响。在这里,我将评估最近在知名经济学期刊上实施的与开放科学问题相关的两项政策变化:预结果审查和编辑声明。在这两项政策的背后都有这样一种观念,即经济学研究应该由作者和期刊根据该项目是否值得首先进行来判断。
具体来说,结果预审背后的理念是,在理想情况下,审稿人和编辑应该根据研究论文的设计、数据和潜在问题的重要性来判断论文的质量,而不是受结果是否令人惊讶、是否适合于新闻稿的影响,统计上有意义的,或证实(或反驳)流行的理论。这种方法在其他社会科学领域已经变得更加普遍,尤其是心理学和认知科学,在这些领域,使用这种方法发表的论文通常被称为“注册报告”。
对结果前审查的一个直接反对意见可能是,学者们缺乏在没有看到结果的情况下评估提交的文章的能力。然而,学者们一直在评估那些缺乏结果的研究性建议:例如,当坐在国家科学基金会或国家卫生研究所评审资助计划时,决定哪一个研究生旅行奖励基金,或在论文招股委员会任职。越来越熟悉预分析计划也有助于预结果审查。
在第一阶段,作者提交一个“提案”,通常类似于一个预分析计划,尽管更强调现有的文献和对项目的概念或理论贡献的讨论。审稿人审阅此提案,编辑可能会与提交作者进行一些反复讨论,类似于常规文章提交的修改和重新提交过程。如果编辑认为这项研究是有价值的,并且符合期刊的质量标准,它就会被授予“原则性验收”,类似于有条件验收。然后,作者分析他们的数据,写出结果,并提交完整的论文进行第二阶段审查。
在第二阶段,提交完整的论文,包括结果、解释和任何超出原计划的扩展(只要清楚描述,可以接受)。pre-results review背后的关键思想是,只要结果是可信的,解释是合理的,并且在这个过程中没有主要的数据问题(这会使论文低于期刊的出版标准),该杂志就会发表论文。例如,如果你试图在一个经历内战或自然灾害的国家进行一项研究,而你无法收集大部分数据,编辑可能会决定原则上的接受不再有效。但如果最终数据看起来质量足够高并且对结果的解释是合理的,那么该杂志就会承诺发表最终论文,即使结果在统计上不显著,挑战传统智慧,令人惊讶,或者似乎不“一致”与一个明确的理论解释。
2013年,几乎没有社会科学期刊使用预结果审查,但这个数量逐年迅速上升,2018年大约有100家期刊接受“注册报告”,在今天有277家期刊。在经济学领域,预审结果最突出的例子是《发展经济学杂志》于2018年5月开始发表。鉴于预分析计划在发展经济学中已经广泛使用,JDE是一个很自然的试点场所,而且据我所知,它是第一份采用预结果评审作为标准文章提交格式的经济学期刊截至2021年1月,大约两年半后,JDE已经收到了90份预审申请,随着时间的推移,比例在上升。其中,18个已经被原则上接受,3个已经在第二阶段被接受,现在即将发表在杂志上,而其他的要么正在进行第二阶段审查,仍在收集他们的数据,进行分析,或撰写论文。
作为《发展经济学杂志》预结果审查采用过程的一部分,BITSS工作人员(Aleksandar Bogdanoski)对12名提交作者进行了电话采访,以从定性上了解预结果审查是如何被理解的(Foster等人,2019年)。采访表明,尽管与常规文章略有不同,但预审结果提交的评审过程总体上进展顺利,没有出现重大问题,部分原因可能是作者和评审人提前准备了详细的说明材料,以及建议的提案模板。到目前为止,最常被引用的好处是,撰写同行评议的提案迫使作者更仔细地思考他们的研究设计,而在早期阶段来自审稿人的反馈有助于进一步改进它。另一种模式是,初级学者——尤其是那些正在就业市场或寻求终身职位晋升的人——欣赏获得尚未完成的项目原则上接受的能力(BITSS 2020)。
关于预结果审查如何在发展经济学以外的子领域发挥作用的问题仍然存在。另一份经济学期刊《实验经济学》(Experimental economics)已经启动了预审结果试点。受《美国经济评论:洞察力》(American Economic Review: Insights)首创的短格式方法的启发,经济学领域另类文章格式最近兴起,这可能会促进其他新方法的接受,如预结果评论。
期刊政策的一个明显和轻微的变化是编辑声明,使一个特定的问题突出。2015年,八家领先的卫生经济学期刊的编辑发表了一份编辑声明,强调发表无效结果的重要性。他们给推荐人写信,提醒他们根据论文的设计和质量来评判论文,而不是看结果是否具有统计学意义。这样的声明似乎是一小步,但它显然鼓励了规范的转变。Blanco-Perez和Brodeur(2020)比较了2014-2018年8种卫生经济学期刊发表的无效结果与两种没有类似编辑声明的应用微观经济学期刊的比例。图4显示了他们来自前时期、编辑声明实施时期和后时期的数据。浅灰色线表示在控制期刊中呈现统计上显著结果(在5%水平)的论文的比例,深灰色线表示受编辑声明影响的期刊中的这一比例。在声明之前,大约有50%的文章在控制和治疗期刊上都有无效结果,但在2015年声明之后,无效结果的发表数量急剧上升,无效结果的比例增加了18个百分点。这是由于编辑和裁判行为的一些组合变化;Blanco-Perez和Brodeur(2020)在研究期间没有发现作者提交给这些期刊的论文的特征发生有意义的变化。
当然,随着时间的推移,人们可以提出关于这些期刊或卫生经济学领域发生其他变化的可能性的问题。然而,这一证据表明,即使是编辑采取的简单而低成本的行动,也可能有助于推动规范的改变,即使是对一些根深蒂固的东西,如支持发表重要成果的偏见。似乎值得考虑其他经济学期刊就无效结果这一主题发表类似的社论(连同相关的推荐人提醒信),或许还包括其他开放科学问题。
四、回顾
在过去的二十年里,促进经济学开放科学的政策和实践发生了迅速变化。当我还在研究生院的时候,那些与经济学学科相当陌生的政策——数据和代码的共享、学习注册和预分析计划,以及利益冲突的披露声明——如今已成为经济学家工作流程中的常规部分。开放经济学研究进程将使我们的研究更加可信,同时也有可能促进一个更具包容性的学术社区。然而,尽管一些潜在的问题,如发表偏见、规范搜索和有倾向性的报道可能已经消退,但它们还没有消失。在这篇文章中,我已经提到了一些有希望提高经济学研究透明度的领域。在这里,我再说几点。
在预分析计划方面,Laitin等人(2020年)提出的高效(罕见)报告所有结果的计划,建议作者将所有与预分析计划相关的结果发布在公共研究登记处的标准做法,即所谓的“预分析计划报告”即使这些发现从未被发表在一篇论文中。这一步骤将允许对研究登记的搜索产生迄今为止在某一主题上进行的工作的更完整的证据,从而改进元分析,并为启动新项目的学者提供更明智的选择。
图表四:期刊编辑声明和重要成果的发表

材料来源:注:所处理的期刊包括Journal of Health Economics, European Journal of Health Economics, Health Economics, Health Economics Review, and International Journal of Health Economics and Management。控制期刊包括《公共经济学杂志》和《劳动经济学》。按类别划分,按类别划分的5%水平的显著性测试百分比。“Pre Before the editorial”类别包括比“Before”类别早一年发表的论文。“编辑前”类别包括在负面结果声明之前提交并发表的论文。“编辑期间”类别包括在负面结论声明之前提交、但在声明之后发表的论文。“编辑后”类别包括在发表负面发现声明后提交和发表的论文(分别是2015-2016年和2017年)。
另一组步骤将寻求将预注册方法整合到一些非实验性研究中。例如,可以预先对观察数据进行研究,从而可以验证预分析计划确实先于数据分析。人们可以想象,在某一特定事件发生后(如选举或数据发布)或学者被允许访问受限数据之前进行研究的预注册方法发现,他们审查的预分析计划中大约有4%是为了观察数据:事实上,在之前讨论过的一些研究中,无论是Blanco-Perez和Brodeur(2020)关于期刊编辑政策的变化,还是Christensen、Dafoe等人(2019)关于数据共享影响的研究都是预先登记的观察性研究。实际地利用预注册进行大量观察性非前瞻性研究的途径尚不确定,但仍是未来辩论和创新的关键方向。
一些其他工作正在以各种方式积极丰富预登记,包括将治疗效果与专家预测进行比较的研究,预注册分裂样本分析计划;或使用预分析计划来指导机器学习工具的应用。
关于如何让重现性在经济学中更好地发挥作用的新想法也在出现:Lars Vilhuber(美国经济协会数据编辑)正在领导一项与伯克利社会科学透明度倡议合作的努力,旨在加速经济学的计算再现性(ACRE https://www.socialsciencereproduction.org/)。我们的目标是建立一个众包平台,以一种系统的方式聚集和组织复制活动(这些活动如今通常作为研究生课程作业进行),这样就有可能摆脱对一个发现是否“复制”的非黑即白的判断,并阐明验证经验结果所涉及的细微差别。还有一个关于如何将更多的研究透明度工具引入公共政策的具体建议,称为开放政策分析(Hoces de la Guardia, Grant, and Miguel 2018),其中涉及采取一个具体的政策分析(例如,国会预算办公室对最低工资影响的分析,然后在一份公开的在线文件中详细说明结果是如何得出的,任何公众都可以查阅。
即使这些开放科学工具的范围和影响力在扩大,我认为还需要做更多的工作来改变经济研究团体的文化和思维方式。在我看来,经济学家应该鼓励我们自己、我们的同事和我们的学生去研究重要的问题,而不是过于担心立竿见影的结果:毕竟如果学者们在研究一个重要问题的同时,收集了良好的数据,采用了深思熟虑的方法,即使是无效的结果也是有意义的。我们应该强调,以这种方式进行的所有研究都有助于产生事实和了解世界这一更广泛的社会目标。

下面这些短链接文章属于合集,可以收藏起来阅读,不然以后都找不到了。

2.5年,计量经济圈近1000篇不重类计量文章,

可直接在公众号菜单栏搜索任何计量相关问题,

Econometrics Circle




数据系列空间矩阵 | 工企数据 | PM2.5 | 市场化指数 | CO2数据 |  夜间灯光 | 官员方言  | 微观数据 | 内部数据计量系列匹配方法 | 内生性 | 工具变量 | DID | 面板数据 | 常用TOOL | 中介调节 | 时间序列 | RDD断点 | 合成控制 | 200篇合辑 | 因果识别 | 社会网络 | 空间DID数据处理Stata | R | Python | 缺失值 | CHIP/ CHNS/CHARLS/CFPS/CGSS等 |干货系列能源环境 | 效率研究 | 空间计量 | 国际经贸 | 计量软件 | 商科研究 | 机器学习 | SSCI | CSSCI | SSCI查询 | 名家经验计量经济圈组织了一个计量社群,有如下特征:热情互助最多前沿趋势最多、社科资料最多、社科数据最多、科研牛人最多、海外名校最多。因此,建议积极进取和有强烈研习激情的中青年学者到社群交流探讨,始终坚信优秀是通过感染优秀而互相成就彼此的。


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存