MiniMax预告M3稀疏注意力，1M上下文提速9.7倍|minimax|上下文|推理|新论文

MiniMax 工程负责人 Skyler Miao 在社交平台预告新一代模型 M3，并公布了全新注意力架构：MiniMax Sparse Attention (MSA，稀疏注意力机制)。

在 100 万 (1M) tokens 超长上下文场景下，相较于采用全注意力架构（Full Attention，即稠密注意力）的 M2，M3 在 Prefill（预填充）阶段的注意力延迟下降，对应提速约 9.7 倍；Decode（解码）阶段的注意力延迟下降，对应提速约 15.6 倍。

随着上下文窗口迈向百万级别，长文本推理的瓶颈正在发生转移。以往显存容量（VRAM）是核心限制，而当上下文达到 100k 以上时，全稠密注意力高昂的计算成本（FLOPs）便成为本地部署的主要瓶颈。Redis 创始人 Salvatore Sanfilippo (antirez) 评价 MSA 路线为「正确的道路」，认为在本地推理中稠密注意力的开销难以为继。这与行业内其他长文本方案的探索方向一致：例如 DeepSeek V4 在 1M 上下文上的系统级优化，同样依赖混合注意力设计，通过压缩 KV 轴、压缩稀疏注意力（CSA）、高压缩率注意力（HCA，指 128 倍压缩后执行稠密注意力）与滑动窗口注意力（SWA），在降低 KV 缓存压力与节省计算开销之间取得平衡。

对长文本注意力机制的攻坚，是 MiniMax 路线选择的又一次折返。早期 M1 系列曾深度使用 Lightning Attention 等线性注意力，但 M2 却退回了全注意力架构。2025 年 10 月 29 日，预训练负责人孙浩海在官方博客中详解过折返背后的技术权衡：线性或稀疏注意力在常规榜单上表现良好，但在代码、数学、Agent 及长链 CoT（链式思考）等复杂推理场景下容易暴露性能退化问题；同时，当时前缀缓存（Prefix Caching）、低精度状态存储与投机解码等配套系统也尚不成熟。MSA 的推出表明 MiniMax 正在重新进攻高效注意力路线。

虽然分块索引和稀疏计算的设计路径清晰，但 MSA 是否能在不损害模型推理能力的前提下稳定落地，仍有待正式技术报告、权重开源与第三方复现的检验。