MiniMax 工程负责人 Skyler Miao 在社交平台预告新一代模型 M3,并公布了全新注意力架构:MiniMax Sparse Attention (MSA,稀疏注意力机制)。
在 100 万 (1M) tokens 超长上下文场景下,相较于采用全注意力架构(Full Attention,即稠密注意力)的 M2,M3 在 Prefill(预填充)阶段的注意力延迟下降,对应提速约 9.7 倍;Decode(解码)阶段的注意力延迟下降,对应提速约 15.6 倍。
随着上下文窗口迈向百万级别,长文本推理的瓶颈正在发生转移。以往显存容量(VRAM)是核心限制,而当上下文达到 100k 以上时,全稠密注意力高昂的计算成本(FLOPs)便成为本地部署的主要瓶颈。Redis 创始人 Salvatore Sanfilippo (antirez) 评价 MSA 路线为「正确的道路」,认为在本地推理中稠密注意力的开销难以为继。这与行业内其他长文本方案的探索方向一致:例如 DeepSeek V4 在 1M 上下文上的系统级优化,同样依赖混合注意力设计,通过压缩 KV 轴、压缩稀疏注意力(CSA)、高压缩率注意力(HCA,指 128 倍压缩后执行稠密注意力)与滑动窗口注意力(SWA),在降低 KV 缓存压力与节省计算开销之间取得平衡。
对长文本注意力机制的攻坚,是 MiniMax 路线选择的又一次折返。早期 M1 系列曾深度使用 Lightning Attention 等线性注意力,但 M2 却退回了全注意力架构。2025 年 10 月 29 日,预训练负责人孙浩海在官方博客中详解过折返背后的技术权衡:线性或稀疏注意力在常规榜单上表现良好,但在代码、数学、Agent 及长链 CoT(链式思考)等复杂推理场景下容易暴露性能退化问题;同时,当时前缀缓存(Prefix Caching)、低精度状态存储与投机解码等配套系统也尚不成熟。MSA 的推出表明 MiniMax 正在重新进攻高效注意力路线。
虽然分块索引和稀疏计算的设计路径清晰,但 MSA 是否能在不损害模型推理能力的前提下稳定落地,仍有待正式技术报告、权重开源与第三方复现的检验。
热门跟贴