大模型的进化正迎来关键拐点。

从单轮对话的聊天机器人,快速迭代为能自主规划、调用工具、完成百轮交互的Agent智能体,而这一转变也让底层推理架构的核心瓶颈彻底暴露——GPU算力不再是制约性能的关键,KV-Cache存储I/O带宽成为了Agent大模型落地的最大拦路虎。

打开网易新闻 查看精彩图片

就在DeepSeek V4发布前夕,DeepSeek-AI联合北大、清华团队发布了重磅研究DualPath。

DualPath通过创新的双路径架构,让Agentic大模型离线推理吞吐量最高提升1.87倍,在线服务吞吐量平均提升1.96倍,还在1152张GPU的千卡集群完成验证,为下一代模型的升级打下了坚实的技术基础。

之所以会出现如此严重的I/O瓶颈,核心源于Agent大模型的工作特性。

打开网易新闻 查看精彩图片

与传统短对话不同,Agent需要在数十甚至上百轮的环境交互中累积上下文,长度可达百万tokens,而每轮新增的有效信息仅有数百tokens,这让KV-Cache命中率普遍超过95%。

此时,GPU的大量时间并非用于计算,而是在等待从外部SSD存储中读取海量的历史KV-Cache数据。

再加上现代大模型推理普遍采用的Prefill-Decode(预填充-解码)分离架构,进一步加剧了这一矛盾,即所有KV-Cache都只能从外部存储加载到预填充节点,这导致预填充节点的存储网卡带宽被完全占满,成为系统性能的绝对瓶颈,而解码节点的存储网卡却长期处于闲置状态,算力资源被严重浪费。

打开网易新闻 查看精彩图片

同时,硬件发展的失衡也让问题雪上加霜,GPU计算力的增长速度远超网络带宽和显存容量,计算与I/O的比例严重失调,让这一瓶颈愈发突出。

打开网易新闻 查看精彩图片

DualPath的核心创新,正是抓住了解码节点带宽闲置的关键痛点,重构了KV-Cache的加载架构。

在传统的“存储→预填充节点”加载路径之外,它创新性地开辟了第二条“存储→解码节点→预填充节点”的加载通道,通过动态分配两条路径的数据流,把原本单一节点的I/O压力,转化为全局资源池化的负载分担,充分聚合所有节点的存储带宽,从根源上打破了带宽天花板。

打开网易新闻 查看精彩图片

在第一条预填充读取路径中,KV-Cache从持久化存储读入预填充节点的内存缓冲,再传输到GPU显存完成计算,最后将完整的KV-Cache传给解码节点。

而新增的解码读取路径,则让KV-Cache先读入解码节点的内存缓冲,在预填充阶段通过高速RDMA计算网络,以层级流式传输的方式传给预填充节点参与计算,整个过程中数据加载还能与模型计算无缝重叠,进一步提升效率。

当然,把这个看似直观的想法,落地到亚毫秒级延迟敏感的大模型推理系统中,需要攻克两大核心工程难题。

第一个难题是网络流量的干扰,额外的KV-Cache传输极易与模型推理中的关键集合通信冲突,拖慢推理速度。

对此DualPath设计了以计算网卡为中心的流量管理机制,让所有进出GPU的流量都强制通过计算网卡,再利用底层网络的QoS控制能力,将模型推理通信分配到占99%带宽的高优先级通道,KV-Cache传输则分配到低优先级通道,仅在计算网络的空闲间隙传输,实现了两者的完美隔离,既保证了推理延迟,又充分利用了闲置带宽。

第二个难题是动态负载均衡,面对复杂多变的请求,系统需要实时决定每条请求的读取路径,同时兼顾网卡队列长度和GPU负载。

打开网易新闻 查看精彩图片

DualPath为此打造了自适应请求调度器,将Token数量作为核心负载指标,把节点划分为过载、低读取队列、高读取队列三类,优先将任务分配给未过载且读取队列较短的节点。

同时在节点内部,还会基于时间预估机制,将执行时间相近的请求打包成批,最大程度减少GPU同步时的计算气泡,让硬件利用率达到最优。

打开网易新闻 查看精彩图片

实测数据足以印证DualPath的强悍性能。

研究团队在NVIDIA Hopper GPU集群上,基于DeepSeek-V3.2 660B、DS 27B、Qwen2.5-32B三大模型,结合真实的Agent强化学习轨迹数据集完成了全面测试。

在离线批量推理场景(如RL训练的Rollout阶段),DualPath对基线系统实现了碾压式超越,处理DeepSeek 660B模型时吞吐量最高提升1.87倍,且无论每轮追加Token长度、生成长度如何变化,都能保持稳定的性能提升,证明其彻底消除了存储网络瓶颈。

打开网易新闻 查看精彩图片

在在线服务场景中,在首字延迟≤4秒的严格SLO约束下,DualPath能支撑的请求到达率相比基线最高提升2.25倍,还能保持极低的端到端生成延迟。

打开网易新闻 查看精彩图片

而消融实验也证实,双路径加载机制和自适应调度算法,是推动性能大幅提升的核心关键。

更值得一提的是,DualPath还具备极强的大规模扩展性,在1152张GPU的千卡集群中,系统实现了近乎线性的性能扩展,调度器CPU占用还不到10个核心,完全满足生产级的部署需求。

打开网易新闻 查看精彩图片

从DualPath的技术突破中,我们也能清晰看到DeepSeek V4的核心升级方向。

首先,模型与推理系统的协同优化将进一步深化,V4大概率会内置对双路径加载的原生支持,让模型层的KV-Cache结构优化与系统层的路径调度深度融合,实现更高的带宽利用率。

其次,自适应资源配置能力会成为重点,针对不同的工作负载,系统能在线动态调整预填充/解码节点的比例,让资源分配更贴合实际需求,避免固定配置的效率浪费。

同时,KV-Cache的智能拆分加载也有望落地,将单个请求的KV-Cache拆分到两条路径并行加载,进一步挖掘I/O性能潜力。

此外,结合DeepSeek已有的稀疏注意力技术,V4还可能将模型结构优化与DualPath的系统优化结合,在降低计算量的同时减少KV-Cache数据量,形成“模型+系统”的双轮驱动。

此次DualPath的发布,不仅为Agentic大模型的推理性能突破提供了全新的解决方案,更让行业看到了大模型发展的新趋势。

当模型规模接近物理极限时,底层架构的创新与模型算法的深度协同,将成为突破性能天花板的核心关键。