来源:市场资讯
(来源:智东西)
智东西
编译 陈骏达
编辑 云鹏
DeepSeek又找到突破大模型推理瓶颈的新方法了!
智东西2月27日报道,昨天,DeepSeek发布了一项名为DualPath的全新推理系统方案,直指当前大语言模型在智能体应用场景下遭遇的短板——KV缓存存储I/O瓶颈。该方案通过引入双路径加载机制,显著提升系统吞吐量,基本消除了KV缓存的I/O开销。
DualPath的核心创新在于开辟了一条从存储直通解码引擎的新通道。KV缓存不再仅由预填充引擎加载,而是可以加载至解码引擎,再通过计算网络中的RDMA高效传输至预填充端。这一设计不仅缓解了存储端的压力,还避免了网络拥塞,确保延迟敏感型任务不受干扰。
与全局调度器协同后,DualPath实现了动态平衡两端负载,进一步提升资源利用率。在真实智能体工作负载测试中,DualPath将离线推理吞吐量提升最高达1.87倍,在线服务吞吐量平均提升1.96倍。
在大规模可扩展性方面,DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D(2K智能体)扩展到48P96D(48K智能体)实现近线性扩展,任务完成时间基本保持一致。
值得一提的是,与之前DeepSeek发表的许多研究论文类似,这篇论文的第一作者吴永彤同样是DeepSeek的实习生。吴永彤目前在北京大学攻读博士学位,师从金鑫教授,主要研究大模型基础设施相关课题,自2025年8月以来便在DeepSeek系统组工作,曾参与DeepSeek-V3.2的研究。
论文链接:
https://arxiv.org/pdf/2602.21548
一、智能体I/O瓶颈凸显,传统设计成本高昂
随着智能体应用普及,多轮推理已成常态。智能体通过工具与外部环境进行数十甚至数百轮交互,上下文跨轮累积到极长长度。由于多轮、短追加的特性,KV缓存命中率高达95%以上,加载效率取代计算成为性能主导因素。
现有系统采用分层预填充、预填充-解码分离(PD分离)和外部KV缓存存储架构。但问题在于:预填充引擎存储网卡带宽持续饱和,而解码引擎存储网卡带宽大量闲置。这种不平衡暴露了根本性低效——存储网络带宽利用不均,而单纯增加预填充端带宽成本高昂。
DualPath的提出正是为了解决上述问题,其核心洞察在于打破“KV缓存加载必须以预填充为中心”的传统设计。
现有系统仅通过存储到预填充引擎的单一路径加载,导致预填充端带宽饱和而解码端带宽闲置。DualPath则增加了存储到解码路径,将KV缓存先加载至空闲的解码引擎,再通过RDMA高效传输给预填充引擎。
这一模式聚合了所有存储网卡带宽,重新分配网络负载,从根本上缓解预填充端的I/O瓶颈。
不过,该设计仍然面临两大挑战:首先,引入额外的加载路径会产生复杂的流量模式,并可能与模型执行中的集体通信原语产生潜在干扰,若管理不当会降低整体性能。
其次,系统必须在动态和异构的工作负载下在线决定使用哪条加载路径,并同时确保GPU和网卡之间的负载均衡。
二、三大核心组件打造DualPath,新组件并未引入瓶颈
那么,DeepSeek究竟是如何解决这些挑战的呢?DualPath使用了两项广泛使用的技术:
(1)PD分离,将提示词和解码处理分开以提高效率。
(1)分层预填充,避免了预填充引擎上的HBM瓶颈,并提高了GPU利用率。
而DualPath主要由三大核心组件构成。推理引擎是基础执行单元,每个引擎管理一个GPU,并明确区分为专司预填充计算的预填充引擎和负责解码生成的解码引擎。
流量管理器内嵌于每个引擎,统筹所有数据移动:包括主机与设备间的内存拷贝、预填充与解码引擎之间的KV缓存传输,以及通过存储网卡进行的KV缓存持久化读写。其采用以计算网卡为中心的流量管理策略,确保KV缓存流量不会干扰延迟敏感的模型集体通信。
请求调度器作为中央决策单元,接收客户端请求并智能分发给各引擎,同时动态决策每条请求采用传统存储到预填充路径还是新型存储到解码路径,实现双路径间的流量均衡与全局负载优化。
在具体实现上,DualPath在每个预填充引擎和解码引擎上预留少量DRAM作为缓冲区。对于预填充端读路径,命中token的KV缓存首先从存储读入预填充引擎缓冲区,然后按层流式传入预填充引擎的HBM,与未命中token的KV计算过程重叠执行。随后,完整的提示词KV会被传输至解码引擎缓冲区,供解码阶段使用。
对于解码端读路径,命中KV首先加载到解码引擎缓冲区,在预填充引擎执行预填充时逐层通过RDMA读取,同时与计算重叠。未命中KV计算完成后回传至解码引擎,与命中KV合并形成完整提示词缓存。
无论哪条路径,数据传输都采用分层流式方式,以缓解HBM容量压力并实现计算与通信的重叠。解码阶段开始前,解码引擎将完整KV从缓冲区传入HBM,完成主机到设备拷贝后释放CPU内存;在生成过程中,每当累积满一个固定大小的token块,就立即持久化到存储。
为了验证该架构不会引入新的瓶颈,论文对计算网卡带宽和DRAM带宽进行了系统性分析。通过建立每对预填充引擎—解码引擎之间的流量模型,并假设负载均衡与网络无拥塞,作者推导出在一定的P/D(预填充节点与解码节点数量之比)范围内,计算网卡、PCIe以及DRAM均不会成为瓶颈。
在典型配置(例如每节点8个GPU、存储带宽远小于计算带宽)下,可行的P/D区间覆盖大多数实际部署比例,说明系统能够在充分利用所有存储网卡带宽的同时,保持计算与内存资源的稳定运行。
三、系统落地仍面临三大挑战,采用计算网卡为中心的流量管理
然而,在真实系统中落地双路径架构仍面临三项核心挑战。首先是细粒度数据传输。分层执行缓解了HBM容量压力,但也将KV拆分为大量小块,需要在存储、主机DRAM和GPUHBM之间高效搬运,同时控制软件与硬件开销。
其次是流量隔离。新增的KV传输可能干扰模型执行中的延迟敏感型集体通信(如AllToAll、ReduceScatter/AllGather),若缺乏隔离机制,将直接推高端到端推理延迟。
最后是动态负载均衡。由于系统存在两条读取路径,调度器必须结合磁盘队列长度、GPU负载和请求特征动态决策,否则容易再次形成局部瓶颈。
为避免KV传输干扰模型通信,系统采用以计算网卡为中心的流量管理机制。所有进出GPU的流量,包括H2D/D2H拷贝,统一经由与GPU配对的计算网卡,并通过GPUDirectRDMA完成传输,使全部数据流汇聚到计算网络,从而利用硬件QoS能力进行优先级隔离。
在基于InfiniBand的部署中,模型推理通信被映射到高优先级虚拟通道,KV传输映射到低优先级通道,并通过加权轮询保障前者带宽。这样既保护了延迟敏感通信,又允许KV流量利用空闲带宽。实验还表明,在大量小块场景下,其更适合细粒度传输。
在调度层面,系统采用两级自适应机制。引擎间调度为请求选择预填充引擎—解码引擎对并确定读取路径,通过token数量与磁盘队列长度实现负载均衡;解码引擎调度分为跨组与组内两阶段,在平衡总token数的同时考虑HBM容量约束,避免资源过载。
引擎内调度主要作用于预填充引擎,通过估计注意力层计算量设定“计算配额”,以FIFO方式组批,必要时对请求分块,使各GPU计算时间趋于一致,减少同步等待。
总体而言,双路径加载聚合存储带宽,理论分析保证系统无新增瓶颈,计算网卡中心化设计实现严格流量隔离,自适应调度则维持负载均衡与低延迟,共同构成一个高吞吐、可扩展的推理架构。
四、实验证明KV缓存I/O开销已基本消除,在千卡集群上实现线性扩展
为验证DualPath带来的性能提升,DeepSeek在一个由InfiniBand互连的GPU服务器集群上进行实验,评估了三个模型的表现:DeepSeek V3.2 660B(记为DS 660B)、DS 660B的27B缩小版本(记为DS 27B)以及作为稠密模型代表的Qwen2.5-32B(记为Qwen 32B)。
实验结果显示,DualPath在更大的批次规模和更长的最大有效上下文长度下获益更加显著。在DS 660B上,DualPath相较于DeepSeek内部的基线推理框架最高实现1.87倍加速,且性能接近假设零I/O开销的理论性能上限,说明KV缓存I/O开销已基本被消除。
在DS 27B上,DualPath相较于DeepSeek内部的基线推理框架最高提升1.78倍。
在改变追加长度和生成长度时,DualPath在短token场景下优势更明显。随着追加长度增加,GPU计算压力增大,而生成长度增加则因预填充间隔变长,降低了KV缓存加载压力。
图9显示,随着追加长度增长,未采用DualPath的推理引擎表现和DualPath的性能越发接近,表明系统瓶颈逐渐转向GPU计算。在不同追加规模下,DualPath相较于基线实现1.82至1.99倍加速,生成长度扩展趋势类似。
在不同预填充-解码比例下,DualPath均显著优于基线,平均实现1.64倍加速,最高达2.46倍。基线推理引擎只能使用预填充节点的存储带宽,而DualPath能够利用所有节点的带宽,验证了在智能体场景下存储带宽是主要瓶颈。
在在线服务评估中,DualPath在智能体请求到达速率上显著优于基线,在DS27B和DS660B上分别达到1.67倍和2.25倍提升。
在负载均衡方面,DualPath显著改善了存储网卡和注意力层执行时间的均衡性。相较于轮询调度,调度算法将存储网卡负载均衡指标从1.53优化至1.18。同时,在任务前5%执行阶段,将注意力层最大/平均执行时间比控制在1.06以内,减少了GPU空闲气泡。
在大规模可扩展性方面,DualPath系统在最多1152张GPU上进行了验证。离线推理从2P4D(2K智能体)扩展到48P96D(48K智能体)实现近线性扩展,任务完成时间基本保持一致。
在线服务中,44P88D配置在保持相似延迟的同时,将吞吐量提升22倍。所有实验中调度器CPU占用低于10核,表明其不是性能瓶颈。
大规模部署不仅减少资源碎片化,还为并行度和P/D比例调优提供更大灵活性,同时在突发在线请求场景下提供更多调度空间以缓解排队延迟。
结语:智能体推理迎来提效利器,未来或引入自适应机制
随着DualPath论文的发布,它有望为业界在处理大规模智能体推理任务时提供一个新的思路。对于正苦于KV缓存I/O压力的开发者与研究者而言,这或许是一个值得关注的方向。
不过,DeepSeek的研究团队也坦言,离线推理的工作负载高度动态,下一步需要研究更自适应和更灵活的并行度和P/D比例配置方法,例如模拟器或在线调整机制。
热门跟贴