2月13日,MiniMax正式宣布上线新一代文本模型MiniMax M2.5。据介绍,该模型定位为“原生Agent生产级模型”,目前已在MiniMax Agent平台上线,并支持全球开源及本地化部署。

据了解,MiniMax M2.5在编程、工具调用及办公等场景进行了重点优化。在编程能力方面,该模型在SWE-Bench Verified榜单中得分为80.2%,在Multi-SWE-Bench中得分为51.3%。

打开网易新闻 查看精彩图片

MiniMax方面表示,M2.5展现出了“原生Spec能力”,即在编码前能主动拆解架构与功能规划。在工具调用和搜索能力上,新版本在BrowseComp等任务中的表现较上一代提升了约20%。此外,在办公场景中,针对Word、PPT、Excel金融建模等高阶场景,该模型在测评框架GDPval-MM中与主流模型对比,取得了59.0%的平均胜率。

在推理速度与成本控制方面,据官方数据,M2.5-lightning版本支持100 TPS以上的输出速度,约为部分主流模型的2倍。成本方面,输入价格约为0.3美元/百万Token,输出价格约为2.4美元/百万Token。MiniMax方面测算,在理想状态下,1万美元的成本理论上可支持4个Agent连续工作一年,并认为,随着性能提升与成本降低,Agent规模化部署的经济模型或将发生变化。

技术层面,M2.5的迭代得益于大规模Agent强化学习(RL Scaling)。据介绍,MiniMax自研了Forge框架,通过解耦训练引擎与Agent,实现了约40倍的训练加速。同时,算法层面采用了CISPO优化与过程奖励机制,旨在缓解长上下文场景中的信用分配问题,并在效果与响应速度之间寻求平衡。

打开网易新闻 查看精彩图片

M2.5已于2月12日上线,并于今日开启全球开源支持本地化部署。数据显示,上线不到一天时间内,用户已在平台上构建了超过1万个专家智能体。MiniMax表示,希望通过构建可持续扩展的Agent生态,推动Agent应用在编程、办公、创作等领域的进一步发展。(袁宁)