当25个AI工作节点在36分钟内吐出12,500行代码时,我们甚至不知道账单多少。这不是炫耀,是失控——直到我们跑了52次对照实验,才发现一个反直觉结论:决定AI编程效率的从来不是模型或工具,而是你按下回车前写的那几行字。
一场失控后的清醒
故事从一次"暴力美学"开始。7个Swarm集群、25个并行AI工作节点、96个文件、36分钟交付。听起来像技术胜利,实际是黑箱——成本未知,质量未测,只有速度是真的。
于是我们设计了52次受控实验。变量覆盖三种架构(顺序执行、多终端并行、Anthropic原生Agent Teams)、三种模型(Haiku/Sonnet/Opus)、三种评分器,以及一个被忽视的因子:任务前的结构化简报。
结果推翻了我们所有的初始假设。
正方:并行即正义?
Anthropic的Agent Teams营销逻辑很诱人:把大任务拆给多个子代理并行处理,速度翻倍。技术层面确实成立——三个代理同时跑, wall-clock时间压缩。
但数据暴露了隐藏成本。每个代理独立加载完整代码库上下文,80K token的上下文被复制三份。缓存消耗(cache burn)迅速吞噬并行收益。测试显示,Agent Teams的成本比顺序执行高出73%至124%,质量评分却无差异。
更讽刺的是,当任务本身被一份结构清晰的CONTRACT.md定义后,顺序执行的成本和速度双双击败并行方案。架构选择沦为次要变量。
反方:简报才是隐藏杠杆
我们设计了一个2×2因子实验:20次对照运行,固定模型和代码库,唯一变量是是否提供CONTRACT.md。
这份文档包含什么?精确到字段名的TypeScript接口、数据库表结构、import路径规范、显式的非目标声明("本次PR不做分页、不做软删除、不做全文检索")。
结果:成本下降65%,时间缩短68%,质量评分从5/10跃升至9/10。同一模型,同一任务,差异仅在于任务前的几分钟撰写。
机制很直白——AI从"探索模式"切换为"执行模式"。没有模糊地带需要推理,没有隐含假设需要验证,token消耗集中在实现而非猜测。
第三个变量:自我进化的陷阱
清华NLH团队2026年3月的论文(SWE-bench基准)将"自我进化"(acceptance-gated retry loops)评为最佳 harness 模块,质量提升+4.8分。我们复现了这个机制。
在T3任务中植入故意陷阱(错误import路径、缺失导出),运行5次对照。自我进化确实让验收标准多通过1项,但整体质量从9/10暴跌至6/10,成本膨胀2.1倍。
根源在于模型的编辑行为:它不是外科手术式修改,而是整文件重写。修复一个broken import可能连带重构三个无关函数,引入新的不一致。验收标准通过≠代码质量合格。
我的判断:工具狂热期的终结
这组实验指向一个被忽视的真相:AI编程的效率瓶颈不在工具链,而在人机接口的设计。我们过度投资模型选型、并行架构、智能体编排,却吝啬于任务定义的几分钟。
CONTRACT.md的54%成本降幅不是魔法,是信息熵的压缩。当需求的不确定性被结构化文档消除,AI的计算资源才真正用于生成而非猜测。这解释了为什么同一模型在不同团队手中产出差异巨大——不是模型变强了,是有人先做了功课。
Agent Teams的73%成本溢价和retry loops的质量崩塌,共同勾勒出一幅图景:当前AI编程工具的优化方向,大量建立在"模型足够聪明可以自我纠正"的假设上。但52次实验显示,模型更擅长在清晰约束下一次性做对,而非在模糊目标中迭代逼近。
这对行业意味着什么?短期看,一份标准化的任务简报模板可能比升级模型版本ROI更高。中期看,AI编程工具的竞争焦点将从"谁能生成更多代码"转向"谁能更好地结构化需求输入"。长期看,我们可能正在见证一个反直觉的收敛:最激进的AI自动化,反而依赖最古典的软件工程实践——精确的需求文档。
至于那些仍在追逐并行工作流和智能体编排的团队,数据留了一句冷幽默:你们多花的每一分钱,都在为别人的CONTRACT.md买单。
热门跟贴