打开网易新闻 查看精彩图片

10秒等待变成瞬间响应。在1000多个包的巨型代码仓库里,Turborepo的任务调度从"泡杯咖啡回来还没好"进化到"回车键还没松手就结束"。

这个数字来自Vercel工程师Anthony Shew的实测:任务图计算时间最高砍掉96%,首任务启动速度提升11倍。但他真正想聊的不是结果,是过程——8天里,他把AI代理、云端沙盒和"无聊的老派工程"搅在一起,像调鸡尾酒一样试出来的。

先让8个AI代理通宵干活

先让8个AI代理通宵干活

Shew睡前用手机启动了8个后台编码代理,每个指向Rust代码库里他怀疑有性能问题的不同模块。提示词故意写得模糊,他想看看这些"无人看管"的代理在缺乏上下文工程的情况下,能摸到什么底。

早上醒来,3个代理交出了能直接合并的PR:

PR #11872:通过引用哈希代替克隆整个HashMap,减少内存分配压力, wall-clock时间下降约25%。

PR #11874:把twox-hash换成xxhash-rust,近乎1:1的替换,靠更快的哈希算法挤出6%收益。

打开网易新闻 查看精彩图片

PR #11878:来自代码里一个搁置的TODO——用多源深度优先搜索(DFS)替代不必要的Floyd-Warshall算法。Shew承认这不在关键路径上,"但我的提示词也没指定关键路径,对吧?公平。"

剩下5个代理的产出被废弃。复盘这8场对话让Shew看清了当前代理的盲区:它们从没意识到可以直接在Turborepo代码库上跑基准测试——Turborepo本身就是用Turborepo构建的,编译个二进制跑端到端测试本该是顺手的事。

更典型的是"执念陷阱":代理会死磕第一个冒出来的想法,强行把它做出来,而不是退一步重新思考。这种"先开枪再画靶"的模式,在性能优化场景里尤其危险。

沙盒里的人类介入:从"试试看"到"必须对"

代理的试探结束后,Shew转向Vercel Sandboxes——云端隔离环境,能在秒级启动完整开发环境。这里的关键变量从"AI能做什么"变成"人怎么介入最有效"。

他设计了一套混合流程:代理负责在沙盒里快速生成候选方案,人类负责验证假设和兜底。比如在HashMap优化上,代理提出了引用哈希的方向,但具体实现里哪些字段该共享所有权、哪些必须克隆,需要人工盯着内存profiler逐个确认。

Shew把这种分工比作"AI当侦察兵,人做决策层"。代理能覆盖代码库的广度,但深度和正确性仍需要工程师拿着火焰图(flame graph)一寸寸烧过去。

打开网易新闻 查看精彩图片

一个反直觉的发现:部分最大收益来自"无聊工程"——删掉死代码、合并重复的配置解析、把字符串拼接改成预分配缓冲区。这些代理几乎不会主动去做,因为它们在训练数据里不够"光鲜"。

96%背后的真实成本

96%背后的真实成本

最终数字是96%,但Shew特意强调这是"取决于仓库规模和复杂度"的上限。在Vercel自己的千包仓库里,实际落在81-91%区间。

时间账更诚实:8天高强度投入,3个可用PR,大量废弃分支和复盘笔记。换算成纯工程师工时,未必比传统优化便宜多少。但区别在于探索半径——8个代理并行扫8个模块,这是单个人类工程师无法同时展开的广度。

Shew在总结里埋了一个细节:整个过程中,他从未让代理直接修改任务图算法的核心逻辑。那是Turborepo的命门,"我还没准备好把钥匙交给概率模型"。

最后合并进主分支的改动,每一条都有人工写的回归测试和性能基准。AI加速了发现,但验证和交付的链条,仍然捏在人手里。

下一个会被这样"混合优化"的基础设施会是什么?构建工具已经打了样,编译器、数据库查询引擎、甚至操作系统内核的调度器,会不会也出现类似的"代理侦察+人类攻坚"模式——以及,我们准备好为这种协作方式重新设计代码审查流程了吗?