2月27日,DeepSeek团队上新学术论文,该论文由DeepSeek联合北大、清华共同撰写,研究方向主要聚焦于推理速度。
具体来说,新论文介绍了一个名为DualPath的创新推理系统,专门针对智能体工作负载下的大模型(LLM)推理性能进行优化,通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,将离线推理吞吐量最高提升1.87倍,在线服务的每秒智能体运行数平均提升1.96倍。
2月27日,DeepSeek团队上新学术论文,该论文由DeepSeek联合北大、清华共同撰写,研究方向主要聚焦于推理速度。
具体来说,新论文介绍了一个名为DualPath的创新推理系统,专门针对智能体工作负载下的大模型(LLM)推理性能进行优化,通过引入“双路径读取KV-Cache”机制,重新分配存储网络负载,将离线推理吞吐量最高提升1.87倍,在线服务的每秒智能体运行数平均提升1.96倍。
热门跟贴