2月27日,DeepSeek团队联合北京大学、清华大学共同发表了一篇学术论文,聚焦大模型在智能体场景下的推理性能优化问题。该论文提出了一个名为DualPath的创新推理系统,通过重新设计底层数据加载架构,为日益复杂的AI智能体工作负载提供高效的系统级解决方案。
根据论文披露的数据,DualPath系统通过引入"双路径读取KV-Cache"机制,重新分配集群内存储网络负载,在离线推理场景中将吞吐量最高提升1.87倍,在线服务场景下每秒智能体运行数平均提升1.96倍。该系统已在包含1152个GPU的大规模生产集群上完成验证,支持DeepSeek-V3.2 660B等大参数量模型的部署。
论文指出,当前大模型正从单轮对话机器人和独立推理模型,快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统。这种应用范式的转变,推动推理工作负载从传统的人类与大模型之间的交互,转向人类、大模型与环境三方之间的交互,交互轮次可达数十甚至数百轮。在这种多轮短追加的模式下,历史上下文的KV-Cache命中率通常超过95%,系统性能的决定性因素不再是GPU算力本身,而是从存储中加载缓存数据的效率。
现有主流的预填充与解码分离架构存在结构性瓶颈——预填充引擎的存储网卡带宽被大量KV-Cache读取占满,而解码引擎的存储带宽却大量闲置。DualPath的核心思路是在传统的存储到预填充路径之外,新增一条"存储到解码再到预填充"的加载通道,通过动态分配两条路径的数据流量,将集群内所有引擎的存储网卡聚合为全局资源池,从根本上打破单节点I/O的限制。
值得注意的是,这篇论文发布的时间节点恰逢业界对DeepSeek下一代旗舰模型V4的高度期待。与此同时,智能体正成为大模型行业竞争的核心方向。中信证券研报指出,AI应用场景从简单对话向AI智能体升级,单次任务token消耗呈指数级上升,token的爆发式增长本质上反映出AI推理需求的指数级扩容。在这一背景下,DeepSeek选择将研究方向投向推理系统的底层优化,为智能体大规模落地铺设基础设施层面的技术路径。
声明:市场有风险,投资需谨慎。本文为AI基于第三方数据生成,仅供参考,不构成个人投资建议。
本文源自:市场资讯
作者:观察君
热门跟贴