品玩4月20日讯,据 marktechpost 报道,Moonshot AI与清华大学研究团队联合发布Prefill-as-a-Service(PrfaaS)架构,突破大模型推理的硬件部署限制。该研究针对混合注意力模型,将长上下文预填充任务卸载至独立的高算力集群,通过通用以太网传输KVCache至本地解码集群,实现跨数据中心协同。

PrfaaS引入基于长度的阈值路由机制与双时间尺度调度器,根据请求长度动态分配资源并优化网络传输。实测数据显示,该架构使服务吞吐量较同构基线提升54%,较朴素异构配置提升32%,同时将首字生成延迟降低50%。

研究表明,混合注意力机制显著压缩KVCache体积,使其适配跨数据中心以太网传输。这一突破为未来算力网络构建提供了关键工程路径,标志着大模型推理正迈向更高效的工业化应用阶段。

打开网易新闻 查看精彩图片