打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

马年新春将至,国产AI大模型之战愈发火爆——短短一天时间,多家厂商模型密集更新,其中包括MiniMax上线新一代文本模型MiniMax M2.5。

当各家大模型厂商围绕“春节档”展开密集发布与营销攻势,这款定位为“原生Agent生产级模型”的产品,正式加入这场被业界称为“AI诸神之战”的竞争。

尽管有着编程、工具调用、办公等生产力场景全球SOTA成绩,这家在资本市场备受瞩目的公司却想抛开参数规模与模型榜单的简单比拼,而是打开另一种叙事:中国大模型重新定义Agent2.0时代!

打开网易新闻 查看精彩图片

能自动处理复杂任务

编程能力方面,M2.5在权威榜单SWE-Bench Verified得分80.2%、Multi-SWE-Bench得分51.3%,较上一代显著提升;在Multi-SWE-Bench等多语言复杂环境中超越Opus 4.6,达到了行业最好的水平。更重要的是,模型展现出“原生Spec能力”——在编码前主动拆解架构与功能规划,更接近真实架构师的工作模式。

工具调用和搜索能力方面,模型能够自动处理复杂任务,在BrowseComp、Wide Search等多项Agent任务中以更低的轮次消耗取得了更优的效果,相较于上一代模型表现提升20% ,达到了行业顶尖水平。

办公场景中,在Word、PPT、Excel金融建模等工作区间高阶场景中取得了显著的能力提升,在测评框架GDPval-MM与主流模型的对比中取得了59.0%的平均胜率。

打开网易新闻 查看精彩图片

新民晚报记者获悉,MiniMax内部已率先受益于M2.5的模型能力——在内部真实业务场景中,整体任务的30%由M2.5自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率仍在持续上升。其中,在编程场景表现尤为突出,M2.5生成的代码已占新提交代码的80%。

极致推理重构Agent经济

性能之外,M2.5的另一核心亮点在于极致的推理速度与成本控制。M2.5-lightning版本支持100 TPS以上输出速度,是主流模型的2倍左右;输入价格约0.3美元/百万Token,输出约2.4美元/百万Token。按每秒输出100 Token计算,连续运行一小时成本约1美元;若按50 Token计算,成本约0.3美元。

这意味着1万美元理论上可支持4个Agent连续工作一年。MiniMax方面认为,当性能与成本不再构成约束,Agent规模化部署的经济模型将发生根本变化。

独创Agent RL支撑高速进化

过去108天,MiniMax从M2、M2.1迭代至M2.5,在SWE-Bench Verified成绩从69.4提升至80.2,进步曲线在同业中尤为陡峭。团队将这一跃迁归因于大规模Agent强化学习(RL Scaling)。

其自研Forge框架通过解耦训练引擎与Agent,实现对任意Agent脚手架和工具的泛化优化,并通过异步调度与树状合并策略实现约40倍训练加速。同时,在算法层面采用CISPO优化与过程奖励机制,缓解长上下文场景中的信用分配问题,并将“任务真实耗时”纳入奖励函数,在效果与响应速度之间取得平衡。

打开网易新闻 查看精彩图片

据透露,M2.5已于2月12日在MiniMax Agent上线,并于今日(13日)全球开源支持本地化部署。不到一天,来自全世界的用户已经在MiniMax Agent上构建了1万多个专家,且仍在快速增长;而MiniMax也针对办公、金融、编程等高频场景,在MiniMax Agent 上构建了多组深度优化、开箱即用的专家套组。

新民晚报记者还了解到,MiniMax将在3月2日公布2025年全年业绩。

原标题:《春节档“AI大战”开启,上海这一新模型入局:重新定义Agent2.0时代》

栏目编辑:陆梓华

本文作者:新民晚报 郜阳

图片来源:采访对象供图