AI编程工具真能提高效率吗？七项对照实验给出意外答案

码上闲叙

2026-05-14 09:46 ·北京

2025年7月，METR一项研究在科技圈炸开了锅：开发者们自认AI让他们快了20%，实际上却慢了19%。这个数字成了"AI生产力是幻觉"的标志性证据，被每一篇质疑AI的文章反复引用。

但很少有人注意到后来发生的事。METR做了跟进实验，Anthropic开展了对照试验，赫尔辛基大学团队完成了两阶段随机对照实验，SAP做了可穿戴设备研究，2025年11月还有一项关于Cursor采用的双重差分研究，MIT经济学家跑了三场田野实验。这些研究都没 viral，而且结论各不相同。

我们梳理了2026年初所有受控、准实验和仪器化田野研究文献——不是调查问卷，不是厂商案例，不是"开发者反馈"——包括随机对照试验、严谨的准实验，以及一项质量过硬、无法忽略的Cursor双重差分研究。

剧透：结论既不是"AI带来10倍提升"，也不是"AI让你更慢"。而是"收益 modest，成本真实，高度依赖测量方式， headline 数字每六个月就变"。

过去六个月，证据变得更丰富了，结论却更模糊了。

证据质量问题

在聊具体研究前，先说说什么算证据。目前关于AI编程效率的声明主要来自三类：厂商案例（GitHub、Cursor、Copilot团队报告自家客户）、开发者调查（Stack Overflow、JetBrains、DORA）、个人博客。这些都有用，也都薄弱。

厂商案例有显而易见的利益动机。调查测量的是感知而非行为——而感知与行为的差距正是METR研究的核心发现。个人博客则是轶事。

随机对照试验稀缺，因为昂贵且缓慢。需要真实开发者、真实任务、对照条件，以及足够样本量来检测 modest 效应。以下是现有文献。

1. METR的"我们仍不知道"跟进研究

原始METR研究在2025年初进行：16名有经验的开源开发者，246项任务，基于他们自己的成熟代码库，主要使用Cursor Pro配Claude 3.5/3.7 Sonnet。结果：用AI慢了19%，但事后预测自己快了20%。感知差距驱动了引用量。

跟进研究2025年8月启动。同一批作者，更大样本（57名开发者），任务更紧凑，时薪降低（从150美元降至50美元以扩大招募）。计划是用更新的工具——Claude 4、GPT-5时代模型——验证或更新原始发现。

2026年2月的报告异常坦诚。简言之：实验崩了。

10名回归的原始参与者中，AI使用产生了……

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴