打开网易新闻 查看精彩图片

新智元报道

编辑:Aeneas 艾伦

【新智元导读】MiniMax M2.7刷屏海外开发者社区,热度直冲榜单前列!多智能体协作+自进化能力引爆关注,它为何让全球开发者集体沸腾?实测后我们发现,这位AI新顶流的确实至名归。

最近的一波震撼,是MiniMax M2.7带来的。

一经发布,它就在全球开发者社区引发巨大反响。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

<< 向右滑动查看下一张图片 >>

构建一个智能体,只要需要Opus 1/10的价格,开发者直呼太香了。

打开网易新闻 查看精彩图片

有人说,开源模型和闭源的差距,每个月都在缩小,前沿实验室应该警觉了。

打开网易新闻 查看精彩图片

就在昨天,它在PinchBench榜单上拿下全球第四、国产第一!

打开网易新闻 查看精彩图片

这股席卷全球开发者社区的热度,和此前 M2.5 发布时如出一辙。

打开网易新闻 查看精彩图片

在OpenRouter上,全球大模型的智元(Token)年化吞吐量已经突破了一千万亿,连续霸榜四周的,就是MiniMax M2.5

就在这周的GTC大会上,老黄高度评价了全球爆火的开源项目OpenClaw,增速超过了Linux过去几十年的速度。

在这一趋势下,英伟达也迅速入局,并联合 OpenClaw 核心作者推出了 NemoClaw。

老黄的背书,也让OpenClaw生态瞬间成为焦点,原因在于,MiniMax正是这个生态中的核心玩家,它是为OpenClaw运行提供底层大模型算力支持的厂商之一。

就在GTC大会期间,MiniMax M2.7顺势发布了,它的复杂任务执行和智能体协作能力,简直与大会热点完美契合。

惊喜之处不止这些,它给人的第一感觉,简直像一个会自我进化的团队成员,能在工程和科研里自己迭代自己!

M2.7到底强在哪?值不值得你上手?

一大波新鲜热乎的测评,这就出炉了!

最强Cowork Agent模型,来了

实测后我们发现,这次M2.7的版本更新,让人大为惊喜。

首先是Agent Team&Coding,模型不再只是单打独斗,而是具备原生多智能体协作能力,不用复杂框架也能自己分工配合。

写代码这块,更是肉眼可见地进化:不仅能看日志查bug、做代码重构,还更懂安全,甚至覆盖MLE、安卓开发等真实场景。

数字化办公上,Excel、Word、PPT的体验都非常丝滑。

一句话总结就是,M2.7是一个又能干活,又能协作,还挺会玩的大模型。

多智能体协同,最佳Cowork Agent模型

MiniMax M2.7的一大特性就是原生的Agent Teams(多智能体协作)能力。

在这个场景下,模型需要稳定锚定角色身份、主动挑战队友的逻辑与伦理盲区、在复杂状态机中自主决策,这些全都内化为了模型的原生能力。

打开网易新闻 查看精彩图片

可以说,它是当前最佳的Cowork agent模型,尤其擅长在多Skills交织的复杂环境中执行长链路任务,非常适配多Skills复杂环境的执行。

为了测试这一点,我们让M2.7构建了一个多Agent狼人杀模拟系统,所有角色均由独立Agent扮演,并且能像真人一样推理、发言和投票,同时还要做出一个模拟网站,展示游戏过程。

这个高含金量测试,是一个极其复杂的工程问题,测试了模型的长链路任务规划能力、多Agent建模能力、角色一致性、推理与博弈能力等等,覆盖了指令遵循、复杂规划、多Agent协作、长上下文记忆、编程实现等综合能力。

它不仅要求模型想明白,还要能做出来,这非常接近我们对下一代Cowork Agent的形态设想。

很快,M2.7就完成了一个狼人杀版多Agent协作系统,包括主持人、狼人、预言家、女巫、猎人、守卫、村民等多个Agent,而且每个Agent都有独立的记忆、推理和决策能力。

打开网易新闻 查看精彩图片

不过相对而言,这个网页应用的设计还是比较粗糙。

打开网易新闻 查看精彩图片

但这正是我们想进一步验证的:在复杂环境中,M2.7是否能灵活调用并整合外部技能?

于是,我们向它提供了一些开源版的UI Skills,测试它对「外部工具+既有系统」的整合能力。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

在学习GitHub上的Skills之后,M2.7又新做了一个版本,果然,这次的前端设计和视觉效果大大提高,而底层的多Agent协作逻辑依然稳定。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

好消息是,上述案例中表现出的「实践-总结Skills-激励分享」的能力,也正是团队在MaxClaw产品中打通和验证的完整链路。

随着MiniMax龙虾MaxClaw一并推出的,还有一批「专家」,据说专家社区里的超过一万个「专家」都会以Skills形式开放出来。

打开网易新闻 查看精彩图片

此前,MiniMax官方已开源6个最重要最实用的Skills,加上此前已经上线过上万个「专家」,MiniMax后续应该会把这个链路打通,从而释放巨大的潜力!

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

「专家」里面最受欢迎的,是这个多Agent投研团队,我们用它来测试一下MiniMax M2.7的多智能体协作能力。

打开网易新闻 查看精彩图片

我们向它提问了英伟达近期的市场情绪和新闻面有哪些值得关注的点。

打开网易新闻 查看精彩图片

任务开始后,多个Agent分饰不同角色,从各自的视角处理自己的职责范围内的信息。

打开网易新闻 查看精彩图片

各自完成思考后,先输出各自的意见,给出不同视角的结论。

打开网易新闻 查看精彩图片

最后,「团队领导者」负责整合所有人的意见后,输出一份包含集体智慧的完整版报告,比单一 Agent 输出的观点要更全面。

打开网易新闻 查看精彩图片

(本段文字不构成任何投资建议)

强工程与Coding能力,令人惊叹

在真实的工程场景中,M2.7的表现堪称优秀!

过去,M2系列模型一直都以代码生成能力见长,但其实,代码能力只是它的冰山一角。

在最新版本中,M2.7已具备远超代码编写的综合推理能力,化身可自主排查生产故障的智能体。它不仅仅是会写代码,而是真正理解并且能独立解决生产系统问题。

接下来给道测试题,测测M2.7看日志查bug的能力,也大大增强。

比如某电商系统上线一个创建订单接口,但线上出现大量下单失败,而我们给模型提供的信息,只有部分关键代码,和一段线上日志,要求它分析出下单失败的根本原因,以及还有哪些潜在问题。

根据日志和代码,M2.7迅速分析出,失败的根本原因是PriceService.get_price()对不存在的 SKU(如 SKU-1003)返回None,而create_order函数没有对价格进行空值检查就直接使用。

打开网易新闻 查看精彩图片

另外,我们还让M2.7设计了一个《龙虾逃脱计划》的互动网页。

你是一只即将被端上餐桌的龙虾,需要通过网页上的一系列操作成功「逃脱」。

用户通过网页与龙虾互动,帮助它做决策、完成任务,最终逃出生天。

游戏至少有3个结局:比如成功逃回大海(Happy Ending);被做成蒜蓉龙虾(Bad Ending);成为网红龙虾(搞笑结局)。

很快,M2.7就成功部署了这个应用,体现了超强的代码能力。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

复杂Office自动化能力

在M2.7加持下,其在金融场景下的Excel处理能力也是大大增强。

比如,下面是某上市公司近三年的财务数据(单位:百万人民币),我们要求M2.7在Excel中完成财务分析、预测及估值。

打开网易新闻 查看精彩图片

收到任务后,它立刻创建了一个专业的财务分析Excel报告,包含盈利能力指标、收益能力指标、财务结构指标、现金流指标、估值分析结果,以及2025-2027财务预测。

对于金融从业者来说,这个功能也太实用了!

打开网易新闻 查看精彩图片

M2.7,开启AI自我进化!

自我进化,已经成为全球大模型越来越明显的趋势。

在大模型能力不断逼近「工程化落地」的当下,模型究竟能否参与优化自身?

硅谷大厂们都已经在这条路上取得了成果。

Anthropic内部已经发现:模型有了递归自我提升的迹象,这个时代将提前到来;OpenAI强调,AI研究的自动化、自我改进,将是技术起飞的开始;谷歌DeepMind,则通过AlphaTensor、AlphaCode、Gemini 3 Deep Think、AlphaEvolve等等,构建了递归式的自我进化。

而MiniMax团队在M2.7上进行的探索,给业界提供了一种新的参考范例。

这一次,他们没有单纯提升模型能力,而是尝试构建一个「模型驱动模型进化」的体系,其中的核心,就是一个研究型Agent Harness。

团队让M2系列模型以解决方案架构师身份,仅用1人4天、零人工编码,就自主搭建了包含CI、测试、代码审查的开发Agent harness。

打开网易新闻 查看精彩图片

这个系统整合了数据流水线、训练环境、评测基础设施、跨团队协作以及持久化记忆,使模型能够直接参与到研发流程中,而不仅仅是执行指令。

在实践中,人类研究员只需要提出方向,比如一个RL实验的方法,而模型则需要承担大部分执行工作,包括从文献调研、实验方案跟踪,到数据流水线搭建与实验启动。

而且在运行过程中,Agent还会自动监控实验状态,分析日志,排查问题,进行指标分析,甚至直接修改代码并提交合并请求,同时完成冒烟测试等流程。

原本,这些工作都要人类团队协作完成,结果,M2.7竟然承担了其中30%到50%的工作流。

甚至,研究者还让M2.7,直接参与到了Agent Harness的迭代中。

他们给出命令,让M2.7去优化某个内部scaffold上模型的软件工程开发表现。

它全程自主运行,对于「分析失败轨迹 → 规划改动 → 修改 scaffold 代码 → 运行评测 → 对比结果 → 决定保留或回退」这个迭代循环,执行了超过100轮。

这个过程中,M2.7竟然真的发现了针对模型的有效优化,最终在评测集上效果提升了30%!

M2.7,持续验证自优化机制

在科研能力层面,这种「自优化」机制也得到了验证。

团队基于一个包含短时记忆、自反馈与自优化模块的简易脚手架,让M2.7在MLE Bench Lite的22个机器学习任务中进行持续迭代。

打开网易新闻 查看精彩图片

每一轮,模型都会生成记忆文件,并对当前结果进行自反馈,再基于历史信息进行下一轮优化。

结果,在三次24小时的独立实验中,M2.7的表现随时间持续提升。最佳成绩为9金、5银、1铜,三次平均得牌率达到66.6%,与Gemini-3.1持平,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%)。

打开网易新闻 查看精彩图片

这就证明,M2.7成功验证了一种全新的范式——在闭环系统中,通过记忆与反馈机制,持续优化自身表现。

它成功证明,自己有能力真正去迭代某个机器学习模型的效果!

彩蛋:OpenRoom里的人形虾来了

有趣的是,随着M2.7在人设保持与对话能力上的大幅提升,MiniMax还推出了一个很有意思的开源项目——OpenRoom。

它不再是冷冰冰的对话框,而是一个万物皆可互动的Web空间:你说一句话,场景就会实时变化,角色也会做出反应,甚至主动和环境产生互动。

这间小屋中,你可以体验AI的超绝沉浸感,角色们有自己的情绪,仿佛真正活在这个房间。

看来,AI自我进化的终极交互形式,就是多模态人形虾!

参考资料:

MiniMax M2.7: 开启模型的自我进化