Cloudflare拆分大模型：把输入和输出塞进不同机器|Cloudflare|gpu|上下文|内存|大模型

三个工程师在博客里写下一句话，解释了为什么你的AI对话有时会卡顿——"预填充阶段通常受限于计算，解码阶段则受限于内存。"这不是技术黑话，而是Cloudflare拆解千亿参数大模型的切入口。

一、把一台活拆成两台

Cloudflare最新发布的推理架构做了件反直觉的事：把原本跑在一台机器上的大模型，硬拆成两台各司其职。

一台机器只读输入。它接收你的提示词，快速处理成模型能理解的格式，同时把中间结果存进KV缓存（一种加速后续计算的记忆结构）。这叫预填充（Prefill）。

另一台机器只生成输出。它拿着缓存里的中间结果，一个字一个字地往外吐回答。这叫解码（Decode）。

「预填充受限于计算，解码受限于内存。」Michelle Chen、Kevin Flansburg和Vlad Krasnov三位Cloudflare工程师在博客中解释了这个设计的核心洞察。两种瓶颈，两种硬件性格，强行塞在同一台机器里，必然有一个在等资源。

拆开后，预填充机器可以堆计算单元，解码机器可以堆高带宽内存。Cloudflare给这套方案起了个名字：分离式预填充（Disaggregated Prefill）。

这听起来像工程上的自然选择，但背后是对大模型推理成本的精确拆解。当Kimi K2.5这种超过1万亿参数、体积约560GB的模型需要至少8块英伟达H100才能载入内存时，每一比特的利用率都直接换算成电费账单。

二、Infire：给GPU排班的自定义引擎

硬件拆完了，软件怎么调度？Cloudflare在2025年Birthday Week上发布了一个叫Infire的自定义推理引擎。

Infire的核心任务是解决一个分配难题：当模型大到必须横跨多块GPU时，如何让它们不互相拖累。

Cloudflare用了两种并行策略。流水线并行（Pipeline Parallelism）把模型按层切开，不同GPU负责不同层。Infire在这里做负载均衡，防止某些GPU干完活干等着，其他GPU还在忙。张量并行（Tensor Parallelism）则把同一层的计算拆到多块GPU，Infire优化的是跨GPU通信速度——数据在卡之间搬得越快，整体延迟越低。

「对大多数模型来说，两种并行策略一起用，能在吞吐量和延迟之间取得最佳平衡。」三位工程师写道。

Infire的另一项优化指向内存。大模型推理时，除了模型本身，KV缓存也会吃掉大量显存。Infire压缩了内部进程的GPU内存占用，让Llama 4 Scout能在两块H200上跑起来，同时留出空间给上下文token；Kimi K2.5在8块H100上运行时，也能给KV缓存腾地方。

启动速度是第三个战场。Infire让模型加载更快，用户等待首token的时间被压缩。

三、Unweight：给模型 weights 瘦身15-22%

Cloudflare还透露了一个叫Unweight的系统，声称能把大模型的权重压缩15%到22%。原文在此处截断，但结合上下文可以推断，这是针对模型存储和传输效率的进一步优化。

权重压缩不是新话题，但放在边缘计算场景里意义不同。Cloudflare的全球网络意味着模型需要在不同节点之间流动，更小的体积直接等于更快的部署和更低的带宽成本。

四、为什么选Kimi K2.5当首测模型

Cloudflare的测试清单里，Kimi K2.5和Llama 4 Scout是两个关键样本。选择它们有明确的工程指向。

Kimi K2.5代表极端规模：1万亿参数，560GB体积，8卡H100只是入门配置。这种模型测的是架构的承载上限——能不能在商用硬件上跑得起来，而不是沦为论文里的理论数字。

Llama 4 Scout则代表另一个极端：用两块H200就能跑，且保留大容量上下文窗口。这测的是架构的经济性——能不能把门槛打下来，让小规模部署也能用上长文本能力。

两个极端都罩住了，中间地带自然不在话下。Cloudflare在之前的文章中已经展示过如何在Workers AI上跑开源模型，这次的技术发布是把底层能力透明化。

五、边缘推理的硬件逻辑

把视角拉远，Cloudflare这套设计反映了一个行业趋势：大模型推理正在从"堆卡竞赛"转向"精算竞赛"。

预训练阶段确实需要万卡集群，但推理阶段的需求图谱更复杂。延迟敏感型应用（比如实时对话）需要解码快；吞吐敏感型应用（比如批量文档处理）需要预填充快；长上下文应用需要KV缓存大；多租户场景需要内存利用率高。

没有一种硬件配置能通吃所有场景。Cloudflare的解法是模块化：分离式预填充让计算和内存解耦，Infire让并行策略灵活组合，Unweight让模型体积弹性可调。

这种模块化的代价是复杂度。工程师需要理解不同模型的计算特征，需要调优流水线并行的切分点，需要权衡张量并行带来的通信开销。但收益也很实在：同样的硬件预算，能支撑更多用户或更大模型。

六、对开发者的实际影响

如果你在用Cloudflare Workers AI跑模型，这些底层优化最终会翻译成三个可感知的变化。

第一是成本结构。更高效的GPU利用意味着同样的调用量，账单数字可能往下走。或者同样的预算，能试探更大参数的模型。

第二是响应质量。首token延迟降低，流式输出的卡顿减少，长对话的上下文丢失概率下降。这些体验细节决定用户留存。

第三是模型选择自由度。当基础设施能弹性适配不同规模的模型，开发者选模型时少了一层"我的硬件跑不跑得动"的顾虑，可以更纯粹地从业务需求出发。

Cloudflare没有公布具体的性能基准数字，比如"比AWS快X%"或"成本降低Y%"。这种克制反而让技术细节更可信——他们展示的是架构设计思路，而非营销话术。

七、一个值得跟踪的信号

分离式预填充不是Cloudflare独创。Google、AWS、Azure都在探索类似的拆解方案。但Cloudflare的特殊性在于边缘网络的密度——他们在全球300多个城市有节点，这意味着推理可以离用户更近。

当模型被拆成预填充和解码两个阶段，一个自然的延伸问题是：能不能把预填充放在中心机房，解码推到边缘节点？这样既能利用中心化的计算密度处理复杂输入，又能让输出生成贴近用户降低延迟。

Cloudflare的博客没有明确说这个部署模式，但他们的网络拓扑理论上支持这种玩法。如果未来发布相关案例，将是边缘AI架构的重要进化。

另一个跟踪点是Unweight的完整技术细节。15-22%的压缩率如果能在精度损失可控的前提下实现，对模型分发和边缘缓存都是实质性改进。原文在此处中断，后续发布值得留意。

如果你正在评估AI基础设施选项，建议把这篇博客加入阅读清单。不是因为它给出了标准答案，而是因为它展示了问题拆解的精确性——从大模型的双重瓶颈，到GPU调度的并行策略，再到内存占用的毫米级优化。这种颗粒度的技术透明，在当前的市场环境里并不多见。

Cloudflare拆分大模型：把输入和输出塞进不同机器

热搜

热门跟贴

热搜

热门跟贴

相关推荐

免费玩转Cloudflare-01：搭建免费文生图工具！Cloudflare Workers 一键部署，4 款热门模型随便用

Avec把收件箱改成约会软件，7天让用户多处理40%邮件

我不用服务器搭了个内容管理系统，GitHub就是数据库

Claude被吐槽3年不会画图，开发者用1个协议让它秒变多模态

云计算的"乐高困境"：一个老极客的图式突围

软件界面越精致，Agent越绕着走

Anthropic 搞了个全是 AI 的闲鱼群，大模型在里面互割起了韭菜

MagicWorld：用光流约束+历史记忆+多步训练，让长时程交互稳定不漂移

kimi agent集群，不管最终效果如何，这个排面很舒服很震撼[微笑] #agent

上万个零件组成，真是大开眼界

凌晨2点的1次粘贴，让16位工程师的密码在别人的服务器上躺了3年

国产无人机思路打开，运用到战场上游戏即战斗

DeepSeek V4最大的遗憾

Doc-V*：读100页文档不如只翻对5页，80页场景「暴打」RAG 10个点

“DeepSeek版Claude Code”，Github 2.3k星

推理新范式：动态效能算法让算力资源实现最大化

ClaudeCode之父：“全员编程”时代，企业真正领先在于“组织流程的代差”

1000 倍效率神话，Taalas如何用 “模型即芯片” 暴打英伟达

横跨大西洋11小时，中国开发者用Mac跑Llama 70 B？评论区吵翻了

杨立昆发布史上最“轻”世界模型，单GPU可训，规划速度提升48倍