Moonshot AI与清华联合推出PrfaaS架构，大模型推理吞吐量提升54%

硅星Breaknews

2026-04-20 16:08 ·上海 ·优质互联网领域创作者

品玩4月20日讯，据 marktechpost 报道，Moonshot AI与清华大学研究团队联合发布Prefill-as-a-Service（PrfaaS）架构，突破大模型推理的硬件部署限制。该研究针对混合注意力模型，将长上下文预填充任务卸载至独立的高算力集群，通过通用以太网传输KVCache至本地解码集群，实现跨数据中心协同。

PrfaaS引入基于长度的阈值路由机制与双时间尺度调度器，根据请求长度动态分配资源并优化网络传输。实测数据显示，该架构使服务吞吐量较同构基线提升54%，较朴素异构配置提升32%，同时将首字生成延迟降低50%。

研究表明，混合注意力机制显著压缩KVCache体积，使其适配跨数据中心以太网传输。这一突破为未来算力网络构建提供了关键工程路径，标志着大模型推理正迈向更高效的工业化应用阶段。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴