「AI工具让开发者感觉快了20%。然后研究者测出他们慢了19%。」

这段话来自METR团队的研究,值得每个用Copilot、Cursor的人读两遍。不是四舍五入的误差,是感知与现实的39个百分点鸿沟。而整个行业都在回避这场对话。

打开网易新闻 查看精彩图片

一场"感觉很快"的集体幻觉

METR的研究设计很硬:随机对照实验,不是厂商赞助的测评,不是开发者自填问卷。他们找的是有经验的开源贡献者,在自己的代码库里干活——自己熟悉的项目,自己写的代码,没有学习成本干扰。

一半任务用AI编程助手,一半不用。实验前开发者预测AI能让自己快24%,做完仍相信快了约20%。

秒表说:慢了19%。

这个数据刺破了一个行业默契。如果你现在问开发者AI工具是否提升效率,大多数人——包括我自己——会说"是"。这就是陷阱所在:工具确实"感觉"高效。自动补全触发,代码蹦出来,手指在动。

但"在动"和"在推进"是两件事。

METR的研究没细拆时间流向,但作者列了几个被忽略的成本项:

→ 审查和修复AI生成代码的时间,算进去了吗?
→ 输出错误时反复提示重试的时间,算进去了吗?
→ 调试那些不是你写的、隐蔽bug的时间,算进去了吗?
→ 评估每条建议的上下文切换税,算进去了吗?

这些在当下都不注册为"变慢"。它们被体验为"协作感"。数据说不。

数十亿美元建立在什么基础上?

这里有个更吓人的事实。AI编程工具领域的数十亿美元投资, justification(正当性依据)是——开发者情绪调查。

「87%的游戏开发者在工作流中使用AI智能体」,「87%的开发者每天使用AI编程工具」。听着耳熟吗?开发者也会在老板在场时说"会议很有用"。自报生产力比占星术强不了多少。

METR的研究是少数真正去测量"人人都声称已知道"的尝试。结果与叙事相反。

我不是说AI编程工具没用。我用。但我已经停止假设"生成文本快=省时间"。

这不是反AI的论点,是亲诚实的论点。

怎么验证AI真的帮到了你?

如果AI工具确实对你有用,很好。但验证依据要比" gut feeling(直觉)"更硬。作者的建议很具体:

追踪相似任务的实际完成时间。注意那种"花了30分钟和生成的代码搏斗,本来10分钟能手写"的时刻。

不舒服的真相是:速度和速度感是完全不同的东西。一个生成代码很快但生成错误代码也很快的工具,不是生产力工具,是一个非常有说服力的干扰项。

比"AI有没有用"更危险的问题

研究作者的真正担忧,不是AI工具效率不高。而是:

「我们将基于'它们很高效'的错误假设,对工程组织做出根本性改变,而且永远不会停下来质疑这一点。」

我们正在基于生产力增长的假设来招聘、规划 headcount(人头数)、制定 sprint(冲刺)承诺。而这些假设可能根本站不住脚。

想想看:如果AI工具实际上让资深开发者慢了19%,但整个行业都在按"快了20%"来做资源规划,会发生什么?

压缩的排期、膨胀的预期、 burnout(过劳)的团队——而这一切的源头,是一个没人愿意验证的"感觉"。

METR的研究不是终点,是起点。它打开了一个被"87%开发者都在用"这类数据封住的话题。真正的问题不是AI编程工具好不好,而是我们有没有诚实的机制去判断它们好不好。

在砸下下一个亿之前,也许先找个秒表