2026年春节前夕,MiniMax正式上线新一代文本模型MiniMax.5。当各家大模型厂商围绕“春节档”展开密集发布与营销攻势,这款定位为“原生Agent生产级模型”的产品,正式加入这场被业界称为“AI诸神之战”的竞争。
M2
尽管有着编程、工具调用、办公等生产力场景全球SOTA成绩,这家在资本市场备受瞩目的公司却想抛开参数规模与模型榜单的简单比拼,而是在硅谷科技圈打开另一种叙事:中国大模型重新定义Agent2.0时代。
10B激活参数跑出旗舰成绩
在编程能力方面,.5在权威榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代显著提升;在Multi-SWE-Bench等多语言复杂环境中超越Opus 4.6,达到了行业最好的水平。更重要的是,模型展现出“原生Spec能力”——在编码前主动拆解架构与功能规划,更接近真实架构师的工作模式。
M2
工具调用和搜索能力方面,模型能够自动处理复杂任务,在BrowseComp、Wide Search等多项 Agent 任务中以更低的轮次消耗取得了更优的效果,相较于上一代模型表现提升20% ,达到了行业顶尖水平。
办公场景中,在 Word、PPT、Excel 金融建模等 Workspace 高阶场景中取得了显著的能力提升,在测评框架GDPval-MM与主流模型的对比取得了 59.0%的平均胜率。
极致推理重构Agent经济
性能之外,.5的另一核心亮点在于极致的推理速度与成本控制。.5-lightning版本支持100 TPS以上输出速度,是主流模型的2倍左右;输入价格约0.3美元/百万Token,输出约2.4美元/百万Token。按每秒输出100 Token计算,连续运行一小时成本约1美元;若按50 Token计算,成本约0.3美元。
M2
M2
这意味着1万美元理论上可支持4个Agent连续工作一年。MiniMax方面认为,当性能与成本不再构成约束,Agent规模化部署的经济模型将发生根本变化。
独创Agent RL支撑高速进化
过去108天,MiniMax从、.1迭代至.5,在SWE-Bench Verified成绩从69.4提升至80.2,进步曲线在同业中尤为陡峭。团队将这一跃迁归因于大规模Agent强化学习(RL Scaling)。
M2
M2
M2
其自研Forge框架通过解耦训练引擎与Agent,实现对任意Agent脚手架和工具的泛化优化,并通过异步调度与树状合并策略实现约40倍训练加速。同时,在算法层面采用CISPO优化与过程奖励机制,缓解长上下文场景中的信用分配问题,并将“任务真实耗时”纳入奖励函数,在效果与响应速度之间取得平衡。
.5已于2月12日在 MiniMax Agent上线,并于13日全球开源支持本地化部署。不到一天,来自全世界的用户已经在MiniMax Agent上构建了1万多个专家,且仍在快速增长。
M2
MiniMax表示,希望在持续提升模型能力的同时,构建一个可持续扩展的Agent生态-Agent Universe。当模型能力、泛化性和成本都不再是瓶颈,Agent渗透到工作和生活的各个角落——从编程、办公到创作、娱乐,大幅促进 Agentic 应用的进一步发展。
热门跟贴