国产AI公司MiniMax刚刚放出一个开源模型M3,直接把顶级编程能力、百万token上下文窗口和原生多模态打包在了一起。按照官方说法,这套组合此前只有Opus 4.7、GPT-5.5这类闭源系统才敢给,开源模型根本摸不着边儿。
支撑这个超高上下文窗口的是新提出的“MiniMax稀疏注意力”(MiniMax Sparse Attention)架构。它只处理与当前任务相关的数据块,算力消耗降到原来的二十分之一,输入处理速度提升超过九倍,从而在成本和效率上控制住了百万token级别的推理开销。
从跑分来看,M3已经进入了闭源模型的领地。在软件工程评测SWE-Bench Pro上,MiniMax给出的成绩是59%,超过GPT-5.5和Gemini 3.1 Pro,仅略微落后于Opus 4.7。在终端任务和工具调用场景,M3同样处于同一梯队。在自主网页搜索的BrowseComp测试中,M3拿到83.5分,压过Opus 4.7的79.3分——当然,Anthropic后来又推出了更强的Opus 4.8。
为了让模型更贴近真实开发流程,MiniMax专门搭建了一个模拟器框架,模拟需求细化、方案讨论、对中间结果做出反应、跨上下文推进等典型行为。这就不是只拿单一明确的提示词练手,而是让模型在训练时适应多轮协作的节奏。
内部还做了三个实验来展示这种持续自主工作能力。第一个实验里,团队让M3独立复现一篇关于大语言模型微调方向的论文。模型在将近十二小时内完全自主运作,产出18次提交和23幅图表,最终确认了论文的关键发现。
第二个实验让M3为一款在英伟达Hopper GPU上运行的矩阵乘法计算内核做优化。这类任务通常需要一个有经验的团队花上一到两周时间。M3只拿到任务描述、一个基准脚本和一个不可运行的空代码框架,没有参考答案可抄。大约24小时后,模型把Hopper硬件的利用率从7.6%提升到71.3%。而多数其他受测模型在早期阶段就放弃了。
目前M3已经通过API提供服务,模型权重也将在近期公开。
热门跟贴