DeepSeek硬核突破!DualPath破解Agent推理瓶颈，V4升级方向清晰了|agent|deepseek|客户端节点|推理|算法|负载

大模型的进化正迎来关键拐点。

从单轮对话的聊天机器人，快速迭代为能自主规划、调用工具、完成百轮交互的Agent智能体，而这一转变也让底层推理架构的核心瓶颈彻底暴露——GPU算力不再是制约性能的关键，KV-Cache存储I/O带宽成为了Agent大模型落地的最大拦路虎。

就在DeepSeek V4发布前夕，DeepSeek-AI联合北大、清华团队发布了重磅研究DualPath。

DualPath通过创新的双路径架构，让Agentic大模型离线推理吞吐量最高提升1.87倍，在线服务吞吐量平均提升1.96倍，还在1152张GPU的千卡集群完成验证，为下一代模型的升级打下了坚实的技术基础。

之所以会出现如此严重的I/O瓶颈，核心源于Agent大模型的工作特性。

与传统短对话不同，Agent需要在数十甚至上百轮的环境交互中累积上下文，长度可达百万tokens，而每轮新增的有效信息仅有数百tokens，这让KV-Cache命中率普遍超过95%。

此时，GPU的大量时间并非用于计算，而是在等待从外部SSD存储中读取海量的历史KV-Cache数据。

再加上现代大模型推理普遍采用的Prefill-Decode（预填充-解码）分离架构，进一步加剧了这一矛盾，即所有KV-Cache都只能从外部存储加载到预填充节点，这导致预填充节点的存储网卡带宽被完全占满，成为系统性能的绝对瓶颈，而解码节点的存储网卡却长期处于闲置状态，算力资源被严重浪费。

同时，硬件发展的失衡也让问题雪上加霜，GPU计算力的增长速度远超网络带宽和显存容量，计算与I/O的比例严重失调，让这一瓶颈愈发突出。

DualPath的核心创新，正是抓住了解码节点带宽闲置的关键痛点，重构了KV-Cache的加载架构。

在传统的“存储→预填充节点”加载路径之外，它创新性地开辟了第二条“存储→解码节点→预填充节点”的加载通道，通过动态分配两条路径的数据流，把原本单一节点的I/O压力，转化为全局资源池化的负载分担，充分聚合所有节点的存储带宽，从根源上打破了带宽天花板。

在第一条预填充读取路径中，KV-Cache从持久化存储读入预填充节点的内存缓冲，再传输到GPU显存完成计算，最后将完整的KV-Cache传给解码节点。

而新增的解码读取路径，则让KV-Cache先读入解码节点的内存缓冲，在预填充阶段通过高速RDMA计算网络，以层级流式传输的方式传给预填充节点参与计算，整个过程中数据加载还能与模型计算无缝重叠，进一步提升效率。

当然，把这个看似直观的想法，落地到亚毫秒级延迟敏感的大模型推理系统中，需要攻克两大核心工程难题。

第一个难题是网络流量的干扰，额外的KV-Cache传输极易与模型推理中的关键集合通信冲突，拖慢推理速度。

对此DualPath设计了以计算网卡为中心的流量管理机制，让所有进出GPU的流量都强制通过计算网卡，再利用底层网络的QoS控制能力，将模型推理通信分配到占99%带宽的高优先级通道，KV-Cache传输则分配到低优先级通道，仅在计算网络的空闲间隙传输，实现了两者的完美隔离，既保证了推理延迟，又充分利用了闲置带宽。

第二个难题是动态负载均衡，面对复杂多变的请求，系统需要实时决定每条请求的读取路径，同时兼顾网卡队列长度和GPU负载。