图片由A&ETV除了害怕直。了解更多害怕直的效果

许多政府和慈善项目旨在改善教育、健康、失业等。这些努力有多少起作用?

绝大多数的社会项目和服务还没有经过严格的评估,在那些经过严格评估的项目和服务中,大多数(可能75%或更多),包括那些得到专家意见和不那么严格的研究支持的项目,结果产生的影响很小或没有影响,在某些情况下产生的影响是负面的。

这个估计是由大卫·安德森在2008年做出的GiveWell的博客.当时,他是循证政策联盟的助理主任。

这已经成为一个被广泛引用的估计,特别是在有效的利他主义188bet金宝博官网网址社区,经常被简化为“大多数社会计划不起作用”。但估计数差约十岁,所以我们决定进一步调查。我们再次与安德森发表谈话,以及Adgrade的创始人,Aidgrade的创始人,Danielle Mason,教育养老基金会的研究负责人。

我们的结论是,最初的估计是合理的,但有许多重要的复杂性。在没有进一步澄清的情况下说“大多数社会项目都不起作用”似乎是一种误导,但通过关注基于证据的方法,你可以产生显著更大的影响,这是事实。

我们将依次回顾Anderson、Vivalt和Mason做出的估计,讨论其中的复杂性,并试图在最后得出一个总体结论。

大卫·安德森的最新估计

大卫·安德森(David Anderson)现在是价值数十亿美元的慈善基金会劳拉和约翰·阿诺德基金会(Laura and John Arnold Foundation)的循证政策主管。我们联系了他,他告诉了我们一些坏消息

如果有的话,在严格评估时,发现有微弱或没有影响的程序的百分比甚至可能略高于75%。

他接着解释道:

最初,我把这句话告诉了GiveWell,是根据我们组织对社会政策各个领域进行的数百项(现在可能是数千项)随机对照试验的评估做出的粗略估计。做了这个估计之后,我们对这个问题进行了更系统的研究。

2015年,阿诺德基金会发表关于节目的文献调查已经被测试过了随机对照试验(rct)作为申请资金提案的一部分。结果如下:

教育:在2002年以来由教育科学研究所(IES)委托进行的随机对照试验中评估的90项干预措施中,大约90%的干预措施被发现具有微弱或没有积极效果。

就业/培训:在劳动部委托的自1992年以来报告结果的随机对照试验中,发现约75%的经测试的干预措施显示出微弱或没有积极效果。

医学:回顾发现,初始(II期)临床研究中50-80%的阳性结果在随后更明确的随机对照试验(III期)中被推翻。

业务:谷歌和微软进行的13000项新产品/策略的rct中,据报道80% - 90%没有发现显著效果。

目前的随机对照试验的速度太慢,无法建立大量行之有效的干预措施来解决我们的主要社会问题。在联邦、州和地方社会支出中正在进行和新发起的项目活动中,只有一小部分以可靠的方式进行评估,以确定它们是否有效。例如,联邦政府每年在随机对照试验中只评估1- 12项这样的努力。

什么是“弱效应”?

这些估计的一个困难是,它们对“重大影响”的定义很敏感。一些变量包括:

  1. 统计显著性的条形图。
  2. 效果大小需要相对于成本。
  3. 如何选择结果。

我们的理解是Anderson对(1)使用了标准的5%显著性检验,他在对应中告诉我们:

我们专注于从个人RCT绘制的基本(政策相关)结果,而不是Meta-Analys。In terms of the effects themselves, I was basing my estimate to Give Well on the general rule we used at the Coalition to determine if something “worked” – i.e., whether it was found in a well-conducted RCT to produce sizable, sustained effects on important outcomes.

成本没有被明确考虑。

我们也可以直接看IES学习看看它们的入选条件,符合以下几点:

在研究测量中间结果(如教师内容知识)和更终极的政策相关结果(如学生成绩)的情况下,我们计算了对最终结果的影响。

在研究同时衡量中期和长期结果的情况下,我们计算了对长期结果的影响。

另一个问题是如何选择研究。如果您包括太少的参与者的大量研究,那么即使其中大多数人都这样做(这些都被称为可动力研究),工作似乎很低的百分比。然而,在阿诺德基金会的审查中,他们表示,如果:

样本足够大,以检测干预的有意义的效果。

国际发展评估,荟萃分析与随机对照试验

So far we’ve only talked about estimates for US-based programmes, and we’ve only talked about individual randomised controlled trials rather than meta-analyses — a meta-analysis takes all the existing studies on a programme and combines them, with the aim of providing clearer answers about what works. Eva Vivalt is the Founder of AidGrade, which does meta-analyses of international development interventions, so she was well placed to help.

Vivalt对他们的随机对照试验数据集做了一些快速分析,以说明统计数据如何依赖于定义。请注意,这些只是临时的估计,可以在进一步的分析中进行修改。

开始:

60-70%的随机对照试验结果不显著。

这与安德森的估计相似,但工作的比例略高一些。

然而,Vivalt指出,这低估了有效的部分,因为(1)大多数研究的样本太小,无法得出影响(“动力不足”),(2)它包括所有的结果指标,包括那些不太重要的指标。

如果我们将这些研究按干预类型(如蚊帐)结合起来,并进行荟萃分析,那么:

如果使用随机效应荟萃分析,70-80%的干预措施(包括“蚊帐”、“驱虫”等,而不是单个项目)至少有一个积极的显著结果。

这个数字现在惊人的高,但这仍然不是我们想要的数字,因为(i)结果可能不重要,(ii)效果规模可能相对于成本较小。此外,如果测量了许多结果,但只有一个结果是重要的,假阳性的几率就会高得多,这就是原因这里介绍的

我们如何确定哪些结果是重要的?一个选择是看看多项研究所解决的所有干预结果组合,因为少数关于一种普遍的干预份额份额的研究。这个想法是,如果许多研究人员都包括结果,他们可能认为结果很重要。限制注意至少三篇论文共同共享的干预结果,我们发现:

研究中60-70%的干预结果的meta分析结果不显著。

平均效应量约为0.1个标准差。

总体而言,情况似乎与安德森的估计相似,但有一个略高的比例。(它们也与我们见过的其他数据一致,如JPAL的数据政策教训)。然而,我们应该怀疑,与单个随机对照试验相比,更多的荟萃分析将发现显著的效果。这有几个原因:

首先,荟萃分析可能有更多积极的选择,因为人们不会研究一种干预措施,除非他们认为它有效,而荟萃分析依赖于将多个研究的结果整合在一起。Vivalt同意这一观点,并认为这是对潜在分布的乐观估计。

其次,许多单独的研究力度不足,因此不会显示出统计上显著的影响。然而,如果干预确实有效,那么当你把所有的研究结合到元分析中,你就会获得统计上的力量,并发现一个积极的结果。

第三,你可以想象,干预在大多数情况下是无效的,但偶尔会有强烈的积极效果。考虑三个试验:

  1. 没有显著的影响。
  2. 没有显著的影响
  3. 三个单位的冲击力。

然后,“工作”的个人RCT的比例仅为33%,但如果我们在研究中平均,平均影响将是1个单位。这简化了Meta分析会做什么,而是说明了基本思想。缩小,如果您认为国际发展整体上,那么我们结合的研究越多,积极效果的机会越高。

第四个因素可能是,与美国的社会服务相比,干预国际发展的比例更高。如果人们更穷在美国,可能更容易找到切实有效的简单方法来改善他们的生活,而且这些方法足够通过研究来掌握。一般来说,我们应该期望“有效”的分数随域而变化。

最后,维瓦尔估计了接受测试的程序的比例,并做出了与安德森类似的粗略估计:

也许只有大约1-2%的项目得到了随机对照试验的评估。

与丹妮尔·梅森一起对英国教育进行元分析

英国的教育捐赠基金会提供了一个梦幻般的“工具箱”总结了英国不同教育干预措施的证据,所以我们可以在另一个领域问同样的问题。

该组织的研究主管丹妮尔·梅森(Danielle Mason)告诉我们,该工具包试图包括所有相关的、高质量的定量研究:

对于工具包中的每个主题,我们捕获所有现有的英语语言评论和研究,满足某种质量门槛。

每一种干预措施都是根据(i)证据强度、(ii)效果大小和(iii)成本进行评估的。看看这些分数是如何被评估的在这里

截至2017年6月19日,“教学工具包”中有34种干预措施,其中31种至少对它们进行了一次元分析(即它们的证据强度得分至少为⅖)。

在这31人中,有多少可以说是“有效的”?正如我们所说,这取决于你使用的定义,因为某件事是否有效取决于成本和收益的比例,并没有明确的分界线。EEF鼓励用户考虑权衡,而不是将干预类型划分为“有效”和“无效”。话虽如此,以下是剩下31股的大致数据:

  • 2(6%)有负面影响。
  • 19名(61%)的影响得分至少为“3分”(以进展的月份衡量),在标题中定义为“中等效果”。
  • 在这19项中,有一项相对于其效果大小来说是昂贵的,所以把它们算作“不起作用”或许是合理的。
  • 其中2个项目的影响评分仅为“2分”,但属于成本最低的项目之一,因此将它们算作“有效”项目或许是合理的。

这一比例似乎高得惊人,也许比维瓦尔的数据还高。这类似于约翰海蒂的发现——在教育领域的1200项荟萃分析中,他发现平均效果大小是0.4个标准差,这表明大多数干预措施“有效”。然而,其中许多都不是因果干预。例如,在海蒂的列表中,排名第一的是“教师对成绩的估计”,这只是表明教师可以预测哪些学生会表现得很好,但没有告诉我们如何做到改善学生成绩。我们预计因果干预的平均效应量会更低。

除此之外,我们不确定为什么工作的比例似乎更高。这可能是在这个样本中积极选择的影响更强,或者在教育研究中有更多的发表偏见(我们将会讲到)。

其他可调查的来源

坎贝尔的合作社会项目的元分析和Cochrane协作进行健康干预的元分析回顾一下这些重要结果的比例是很有用的,但是通过浏览数据库,我们粗略的印象是,大约有一半的结果是微不足道的。

那么复制危机呢?

即使随机对照试验发现了积极的效果,当另一组试图进行相同的研究(“重复”发现)时,他们往往发现没有效果。无法复制的部分因字段而异,但确实如此通常在20-50%之间

复制危机在心理学和教育研究等学科中最为严重,这可以解释上述教育领域明显更积极的发现。在心理学方面,即使是多元荟萃分析和专家共识支持的研究结果,后来也未能得到复制。你可以读一篇关于“自我损耗”研究失败的热门文章在这里最近的一次尝试为了复制对“浪漫灌注”的多项研究,发现整个效果可能是由于出版物偏差而导致的。下面的曲线表明,原始研究发现的平均效果大小为0.5,而复制研究相比为0。

复制的研究

复制危机被认为正在发生,因为现有的统计技术提供了许多机会来增加影响的明显重要性,积极的影响比消极的影响更有可能被公布。所以,即使你的随机对照试验显示了积极的效果,但仍然有20% -50%的几率,真正的效果接近于零。

部分出于这个原因,约翰·约阿尼迪斯有句名言“大多数公布的研究结果是假”。

最近的一些重点关注经济学Ioannidis等,2015年发现:

这些实证经济学文献中近80%的效应被夸大了;通常是膨胀到2倍,三分之一膨胀到4倍或更多。

我们还没有在上述任何估计中对这些担忧做进一步的调整,所以它们可能大多是高估了。

然而,如果我们专注于高质量的研究,这些问题就不会那么严重,如果我们使用荟萃分析,就会更严重,就像我们在许多估计中所做的那样。如果我们假设30%的研究结果不能被重复,那么如果似乎有效的比例从35%开始,它将下降到25%。

更重要的是,一个即将到来的纸维瓦尔等人发现,发展经济学领域的情况更好,因为该领域包含了相对大量的大型研究。1

综上所述,我们能得出什么结论?

很难说有多少社会干预“起作用”,因为:

  1. 只有几个百分比被严格测量过,而且许多研究力度不足。
  2. 这使得选择效应潜在地严重。如果研究人员倾向于研究更有希望的干预措施,那么结果将描绘出一幅过于乐观的画面。
  3. “工作”的比例(i)敏感的研究包括在内,包括(2)的结果,(iii),你画的线统计意义,(iv),你画的线效果相对于成本,(v)你是否关注个人研究或荟萃分析,以及广泛的聚合,(六)你侧重哪个领域(例如,卫生vs教育)。
  4. 由于复制危机(“p黑客”、发表偏见等),这项研究的很大一部分可能不可信。

然而,关于有效比例的初步结论是什么呢?

如果我们关注关键的基本成果指标:

  • 在用经过良好的随机对照试验测试时,个人项目,可能超过80%,不要“工作”,即,相对于成本提供合理的效果规模。
  • 可能有1-10%的负面影响。
  • 干预类型通过荟萃分析进行评估,不“有效”的比例可能更低,可能超过60%而不是80%,但部分原因是人们更多地关注最有希望的干预措施。
  • 干预和项目还没由于更多的研究是在最有希望的方法上进行的,所以经过测试的情况可能更糟。
  • 如果你考虑整个“领域”(例如,教育作为一个整体),那么平均效果可能是正面的。如果该地区整体上正在取得进展,这是你可以预料到的,而且存在关闭不良项目的压力,尽管压力不大。这与许多单独的项目失败和少数项目具有强大的积极影响是一致的,这是我们在理论上可能期望的。2
  • 有效干预措施的平均效果大小和比例可能因地区而有显著差异。

那么说“大多数社会项目都不起作用”是否公平呢?

我认为这有点模棱两可,可能会误导人。单独的项目大多不起作用,但整个领域通常有积极的影响。所以,如果你随机选择一个干预,那么平均你的影响将是积极的,因为你有一个很小但很重要的机会选择一个好的。

然而,如果你能专注于最好的根据证据对一个地区进行干预,那么你就可以有显著的效果更多的影响高于平均水平。例如,如果三分之二的干预不起作用,那么如果你能避免这些干预,你所产生的影响将是你第一次偶然发现并随机选择的影响的三倍。

鉴于我们也不能期望我们的肠道本能为了准确地进行选择,我们仍有必要尽力专注于基于证据的方法。

如何重要的是它是“基于证据”?

也就是说,“以证据为基础”的推动作用并不像在有效的利他主义社区中所做的那样大。188bet金宝博官网网址假设10%的干预措施是高度有效的,有10个单位的影响,而90%不起作用。如果你可以选择前10%,那么你将拥有10个单位的影响力,而如果你随机选择,那么你将拥有:

10% * 10 + 90% * 0 = 1单位影响。

因此,以证据为依据所带来的影响是10倍。但是,这是一个上限,因为在现实中,其他90%会有一些积极的影响。此外,您的测量将是不完美的,因此您将无法精确地确定前10%,从而进一步减少差异。

一般而言,提升的大小是基于证据的尺寸取决于该区域内有效的效果程度,以及您的测量值如何。全球健康可能是这些场地的最佳区域,因为我们拥有最多的数据,并且成本效益差异很大。但全球健康的最佳干预措施只有大约十倍比平均值,在调整测量误差后,差异将更少于(平均回归).

更重要的是,一个地区的最佳干预措施可能不是基于当前证据 - 相反,他们可能涉及创造和测试新的干预措施,或者采取高风险,高奖励方法,如研究或政策倡导。如果你只坚持基于证据的方法,你可能会错过那些最高影响的人。(这取决于人们是否在该地区的风险过多或太少。)

所有人都在一起,有效的十倍的增益可能代表您目前可以从采摘基于证据的干预措施,并且在大多数领域,这可能更像是两倍或三倍的增益。3.

为了说明以证据为基础的重要性,社区中的人们通常会引用最佳干预措施和最差干预措施(即中位数干预措施)之间的差异。188bet金宝博官网网址这是一个有趣的数字,因为它表明了有效性的传播,但替代循证的方法可能更像是随机选择(在最坏的情况下),而不是系统地选择最差的干预措施(或中位数)。如果你随机选择,那么你就有很小的机会选择一些非常有效的东西,这意味着你的预期有效性等于平均值。你可能会做得比用理论或自己的经验随机选择更好。

从大多数标准来看,以证据为基础获得2到10倍的影响力是一件大事,但这比你首先选择正确的问题领域所能获得的提升要小得多。我们认为使用我们的框架在一些共同领域的努力可以预期比其他领域更有效100多倍。

阅读更多:

进一步阅读:

笔记和引用

  1. 我们发现,我们样本中的大部分研究总体上是可信的。

    Coville, A., & Vivalt, E.(2017, 8月14日)。我们应该多久相信一次积极的结果?评估发展经济学研究成果的可信度。
    链接到预印本

  2. 复杂系统通常会产生“肥尾”结果,其中一小部分结果远远大于中值。例如,我们发现“事业成功”似乎是这样的。(如果一个结果是由正态分布因子的乘积引起的,那么它将是对数正态分布。)

  3. 尽管从长期来看,建立一种重视证据的文化是有价值的。例如如果你不参加严格的证据,那么你可能(1)影响的地区数据没有收集,和其他因素,导致你随机选比,和(2)创建激励添加一个无限数量的不良干预(因为任何干预将彩票份额)。