DeepSeek联手北大清华放大招，吞吐量暴涨1.87倍，1152个GPU集群已跑通验证|deepseek|gpu|北大清华|新模型|智能体

DeepSeek联手北大清华放大招，吞吐量暴涨1.87倍，1152个GPU集群已跑通验证

金融界

2026-02-27 15:37 ·北京 ·金融界网站官方账号优质财经领域创作者

2月27日，DeepSeek团队联合北京大学、清华大学共同发表了一篇学术论文，聚焦大模型在智能体场景下的推理性能优化问题。该论文提出了一个名为DualPath的创新推理系统，通过重新设计底层数据加载架构，为日益复杂的AI智能体工作负载提供高效的系统级解决方案。

根据论文披露的数据，DualPath系统通过引入"双路径读取KV-Cache"机制，重新分配集群内存储网络负载，在离线推理场景中将吞吐量最高提升1.87倍，在线服务场景下每秒智能体运行数平均提升1.96倍。该系统已在包含1152个GPU的大规模生产集群上完成验证，支持DeepSeek-V3.2 660B等大参数量模型的部署。

论文指出，当前大模型正从单轮对话机器人和独立推理模型，快速演进为能够自主规划、调用工具并通过多轮交互解决实际任务的智能体系统。这种应用范式的转变，推动推理工作负载从传统的人类与大模型之间的交互，转向人类、大模型与环境三方之间的交互，交互轮次可达数十甚至数百轮。在这种多轮短追加的模式下，历史上下文的KV-Cache命中率通常超过95%，系统性能的决定性因素不再是GPU算力本身，而是从存储中加载缓存数据的效率。

现有主流的预填充与解码分离架构存在结构性瓶颈——预填充引擎的存储网卡带宽被大量KV-Cache读取占满，而解码引擎的存储带宽却大量闲置。DualPath的核心思路是在传统的存储到预填充路径之外，新增一条"存储到解码再到预填充"的加载通道，通过动态分配两条路径的数据流量，将集群内所有引擎的存储网卡聚合为全局资源池，从根本上打破单节点I/O的限制。

值得注意的是，这篇论文发布的时间节点恰逢业界对DeepSeek下一代旗舰模型V4的高度期待。与此同时，智能体正成为大模型行业竞争的核心方向。中信证券研报指出，AI应用场景从简单对话向AI智能体升级，单次任务token消耗呈指数级上升，token的爆发式增长本质上反映出AI推理需求的指数级扩容。在这一背景下，DeepSeek选择将研究方向投向推理系统的底层优化，为智能体大规模落地铺设基础设施层面的技术路径。

声明：市场有风险，投资需谨慎。本文为AI基于第三方数据生成，仅供参考，不构成个人投资建议。

本文源自：市场资讯

作者：观察君