"AI让我快了20%"——计时器说：你慢了19%

摸鱼算法

2026-04-22 18:23 ·北京

「AI工具让开发者感觉快了20%。然后研究者测出他们慢了19%。」

这段话来自METR团队的研究，值得每个用Copilot、Cursor的人读两遍。不是四舍五入的误差，是感知与现实的39个百分点鸿沟。而整个行业都在回避这场对话。

一场"感觉很快"的集体幻觉

METR的研究设计很硬：随机对照实验，不是厂商赞助的测评，不是开发者自填问卷。他们找的是有经验的开源贡献者，在自己的代码库里干活——自己熟悉的项目，自己写的代码，没有学习成本干扰。

一半任务用AI编程助手，一半不用。实验前开发者预测AI能让自己快24%，做完仍相信快了约20%。

秒表说：慢了19%。

这个数据刺破了一个行业默契。如果你现在问开发者AI工具是否提升效率，大多数人——包括我自己——会说"是"。这就是陷阱所在：工具确实"感觉"高效。自动补全触发，代码蹦出来，手指在动。

但"在动"和"在推进"是两件事。

METR的研究没细拆时间流向，但作者列了几个被忽略的成本项：

→ 审查和修复AI生成代码的时间，算进去了吗？
→ 输出错误时反复提示重试的时间，算进去了吗？
→ 调试那些不是你写的、隐蔽bug的时间，算进去了吗？
→ 评估每条建议的上下文切换税，算进去了吗？

这些在当下都不注册为"变慢"。它们被体验为"协作感"。数据说不。

数十亿美元建立在什么基础上？

这里有个更吓人的事实。AI编程工具领域的数十亿美元投资， justification（正当性依据）是——开发者情绪调查。

「87%的游戏开发者在工作流中使用AI智能体」，「87%的开发者每天使用AI编程工具」。听着耳熟吗？开发者也会在老板在场时说"会议很有用"。自报生产力比占星术强不了多少。

METR的研究是少数真正去测量"人人都声称已知道"的尝试。结果与叙事相反。

我不是说AI编程工具没用。我用。但我已经停止假设"生成文本快=省时间"。

这不是反AI的论点，是亲诚实的论点。

怎么验证AI真的帮到了你？

如果AI工具确实对你有用，很好。但验证依据要比" gut feeling（直觉）"更硬。作者的建议很具体：

追踪相似任务的实际完成时间。注意那种"花了30分钟和生成的代码搏斗，本来10分钟能手写"的时刻。

不舒服的真相是：速度和速度感是完全不同的东西。一个生成代码很快但生成错误代码也很快的工具，不是生产力工具，是一个非常有说服力的干扰项。

比"AI有没有用"更危险的问题

研究作者的真正担忧，不是AI工具效率不高。而是：

「我们将基于'它们很高效'的错误假设，对工程组织做出根本性改变，而且永远不会停下来质疑这一点。」

我们正在基于生产力增长的假设来招聘、规划 headcount（人头数）、制定 sprint（冲刺）承诺。而这些假设可能根本站不住脚。

想想看：如果AI工具实际上让资深开发者慢了19%，但整个行业都在按"快了20%"来做资源规划，会发生什么？

压缩的排期、膨胀的预期、 burnout（过劳）的团队——而这一切的源头，是一个没人愿意验证的"感觉"。

METR的研究不是终点，是起点。它打开了一个被"87%开发者都在用"这类数据封住的话题。真正的问题不是AI编程工具好不好，而是我们有没有诚实的机制去判断它们好不好。

在砸下下一个亿之前，也许先找个秒表。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴