「AI工具让开发者感觉快了20%。然后研究者测出他们慢了19%。」
这段话来自METR团队的研究,值得每个用Copilot、Cursor的人读两遍。不是四舍五入的误差,是感知与现实的39个百分点鸿沟。而整个行业都在回避这场对话。
一场"感觉很快"的集体幻觉
METR的研究设计很硬:随机对照实验,不是厂商赞助的测评,不是开发者自填问卷。他们找的是有经验的开源贡献者,在自己的代码库里干活——自己熟悉的项目,自己写的代码,没有学习成本干扰。
一半任务用AI编程助手,一半不用。实验前开发者预测AI能让自己快24%,做完仍相信快了约20%。
秒表说:慢了19%。
这个数据刺破了一个行业默契。如果你现在问开发者AI工具是否提升效率,大多数人——包括我自己——会说"是"。这就是陷阱所在:工具确实"感觉"高效。自动补全触发,代码蹦出来,手指在动。
但"在动"和"在推进"是两件事。
METR的研究没细拆时间流向,但作者列了几个被忽略的成本项:
→ 审查和修复AI生成代码的时间,算进去了吗?
→ 输出错误时反复提示重试的时间,算进去了吗?
→ 调试那些不是你写的、隐蔽bug的时间,算进去了吗?
→ 评估每条建议的上下文切换税,算进去了吗?
这些在当下都不注册为"变慢"。它们被体验为"协作感"。数据说不。
数十亿美元建立在什么基础上?
这里有个更吓人的事实。AI编程工具领域的数十亿美元投资, justification(正当性依据)是——开发者情绪调查。
「87%的游戏开发者在工作流中使用AI智能体」,「87%的开发者每天使用AI编程工具」。听着耳熟吗?开发者也会在老板在场时说"会议很有用"。自报生产力比占星术强不了多少。
METR的研究是少数真正去测量"人人都声称已知道"的尝试。结果与叙事相反。
我不是说AI编程工具没用。我用。但我已经停止假设"生成文本快=省时间"。
这不是反AI的论点,是亲诚实的论点。
怎么验证AI真的帮到了你?
如果AI工具确实对你有用,很好。但验证依据要比" gut feeling(直觉)"更硬。作者的建议很具体:
追踪相似任务的实际完成时间。注意那种"花了30分钟和生成的代码搏斗,本来10分钟能手写"的时刻。
不舒服的真相是:速度和速度感是完全不同的东西。一个生成代码很快但生成错误代码也很快的工具,不是生产力工具,是一个非常有说服力的干扰项。
比"AI有没有用"更危险的问题
研究作者的真正担忧,不是AI工具效率不高。而是:
「我们将基于'它们很高效'的错误假设,对工程组织做出根本性改变,而且永远不会停下来质疑这一点。」
我们正在基于生产力增长的假设来招聘、规划 headcount(人头数)、制定 sprint(冲刺)承诺。而这些假设可能根本站不住脚。
想想看:如果AI工具实际上让资深开发者慢了19%,但整个行业都在按"快了20%"来做资源规划,会发生什么?
压缩的排期、膨胀的预期、 burnout(过劳)的团队——而这一切的源头,是一个没人愿意验证的"感觉"。
METR的研究不是终点,是起点。它打开了一个被"87%开发者都在用"这类数据封住的话题。真正的问题不是AI编程工具好不好,而是我们有没有诚实的机制去判断它们好不好。
在砸下下一个亿之前,也许先找个秒表。
热门跟贴