2025年7月,METR一项研究在科技圈炸开了锅:开发者们自认AI让他们快了20%,实际上却慢了19%。这个数字成了"AI生产力是幻觉"的标志性证据,被每一篇质疑AI的文章反复引用。

但很少有人注意到后来发生的事。METR做了跟进实验,Anthropic开展了对照试验,赫尔辛基大学团队完成了两阶段随机对照实验,SAP做了可穿戴设备研究,2025年11月还有一项关于Cursor采用的双重差分研究,MIT经济学家跑了三场田野实验。这些研究都没 viral,而且结论各不相同。

打开网易新闻 查看精彩图片

我们梳理了2026年初所有受控、准实验和仪器化田野研究文献——不是调查问卷,不是厂商案例,不是"开发者反馈"——包括随机对照试验、严谨的准实验,以及一项质量过硬、无法忽略的Cursor双重差分研究。

打开网易新闻 查看精彩图片

剧透:结论既不是"AI带来10倍提升",也不是"AI让你更慢"。而是"收益 modest,成本真实,高度依赖测量方式, headline 数字每六个月就变"。

过去六个月,证据变得更丰富了,结论却更模糊了。

证据质量问题

在聊具体研究前,先说说什么算证据。目前关于AI编程效率的声明主要来自三类:厂商案例(GitHub、Cursor、Copilot团队报告自家客户)、开发者调查(Stack Overflow、JetBrains、DORA)、个人博客。这些都有用,也都薄弱。

厂商案例有显而易见的利益动机。调查测量的是感知而非行为——而感知与行为的差距正是METR研究的核心发现。个人博客则是轶事。

随机对照试验稀缺,因为昂贵且缓慢。需要真实开发者、真实任务、对照条件,以及足够样本量来检测 modest 效应。以下是现有文献

打开网易新闻 查看精彩图片

1. METR的"我们仍不知道"跟进研究

原始METR研究在2025年初进行:16名有经验的开源开发者,246项任务,基于他们自己的成熟代码库,主要使用Cursor Pro配Claude 3.5/3.7 Sonnet。结果:用AI慢了19%,但事后预测自己快了20%。感知差距驱动了引用量。

跟进研究2025年8月启动。同一批作者,更大样本(57名开发者),任务更紧凑,时薪降低(从150美元降至50美元以扩大招募)。计划是用更新的工具——Claude 4、GPT-5时代模型——验证或更新原始发现。

2026年2月的报告异常坦诚。简言之:实验崩了。

10名回归的原始参与者中,AI使用产生了……