打开网易新闻 查看精彩图片

2026年3月,Cloudflare工程师博客更新了一条技术公告:Dynamic Workers正式上线。这不是常规的功能迭代——他们要把AI生成代码的执行延迟,从"喝杯咖啡等结果"压到"眨眼的功夫"。

数据很直白:传统AI代理架构里,大模型每步推理都要走网络往返,token费用像漏水的水龙头。Cloudflare的新方案直接让LLM一次性写完执行脚本,推理成本最高砍掉80%。

ReAct模式:AI代理的"挤牙膏"困境

ReAct模式:AI代理的"挤牙膏"困境

现在主流的AI代理都在用ReAct范式(推理-行动循环)。LLM发现需要调用工具,就停下来发请求,等后端执行完再把结果塞回上下文窗口,接着推理下一步。循环往复。

这套流程的问题在于网络延迟会叠加。每一步都要重新发送完整对话历史,token账单跟着步骤数线性膨胀。你的AI代理不是在思考,是在刷你的信用卡刷得很慢。

Cloudflare和前沿AI研究者盯上了另一个思路:让LLM直接写执行逻辑。给模型API schema,让它生成一段TypeScript或JavaScript函数,把所需操作串成管道。Cloudflare内部管这叫"Code Mode"。

一次性生成执行脚本,LLM只 invoked(调用)一次,而非反复 invoked 来推进计划。

容器方案的"穿帮时刻"

容器方案的"穿帮时刻"

Code Mode理论上很干净,但执行未经验证的AI生成代码是颗雷。传统做法是用Linux容器或微虚拟机做沙箱隔离,这里暴露了老架构的致命伤。

容器启动以秒计,冷启动成本直接吃掉延迟优势。安全沙箱本身就成了性能瓶颈——你为了安全付出的代价,恰好抵消了让LLM写代码省下来的时间。

Cloudflare Dynamic Workers的解法是把Linux容器换成即时创建的轻量V8 isolate。V8 isolate是Chrome同款JavaScript引擎的隔离单元,启动时间在毫秒级,内存占用只有容器的零头。

Dynamic Workers的三张底牌

Dynamic Workers的三张底牌

零冷启动。 V8 isolate的创建和销毁速度让容器看起来像蒸汽机车。AI代理收到用户请求的瞬间,执行环境已经就绪。

成本结构重构。 省下的不只是token费用。容器编排的复杂度、安全补丁的维护成本、预置环境的闲置开销,全部被打包进Cloudflare的边缘网络托管。

攻击面收缩。 V8 isolate的设计初衷就是跑不可信代码。每个isolate有独立的堆内存和全局对象,逃逸漏洞的历史记录比容器少一个数量级。

Cloudflare在公告里放了一个对比:同样执行AI生成的数据处理脚本,Dynamic Workers的P99延迟比AWS Lambda容器方案低两个数量级。具体数字没公布,但"两个数量级"在工程师语境里通常是100倍起步。

动手搭建:从schema到沙箱

实际部署比想象的要轻。核心流程三步:定义API schema,写prompt让LLM生成符合schema的函数,把函数丢进Dynamic Worker执行。

schema设计是关键。你需要让LLM明确知道哪些端点可用、参数类型、返回值结构。Cloudflare的示例用了Zod做运行时校验,生成代码先过类型检查再进isolate。

安全层不能省。即便V8 isolate本身有隔离性,Cloudflare还是加了代码静态分析和执行超时熔断。AI生成的代码可能死循环,也可能试图访问未声明的API——这些都要在进沙箱前拦住。

一个细节:Dynamic Workers支持把执行结果直接流回LLM做后续处理,或者缓存到Workers KV供其他服务消费。这意味着你可以把"生成代码-执行-存结果"整条链挂在边缘节点,离用户物理距离最近的地方跑完全程。

Cloudflare工程师在博客评论区回复了一个用户问题:如果LLM生成的代码有bug怎么办?回答是"和调试普通TypeScript一样,日志和堆栈追踪全给你"。这暗示了另一个设计选择——Dynamic Workers的执行环境和标准Workers共享同一套可观测性工具,没有额外的学习成本。

现在的问题是:当你的竞争对手还在用ReAct模式数着token账单时,你愿意把AI代理的执行逻辑交给LLM一次性写完吗?