打开网易新闻 查看精彩图片

3月18日晚,Minimax 悄悄上了波大分。

更新了其最新的M2.7版本,并且官方还给出了一个核心定义:M2.7,是 MiniMax 第一代深度参与自身进化的模型。

其不仅在指令遵循、办公协同、Coding 方面有明显提升,更重要的是它能够自主搭建 Agent Harness。也就是说,它能搭出一套完整的任务框架,调用各种技能和工具,解决单个模型搞不定的问题,思考干活两手抓,妥妥的“自我进化”。

但这不是光说不练,Minimax还甩出了可验证的测试数据。在测试中,测试员给它甩在了MLE Lite 22道高难度竞赛中,M2.7取得了9金5银1铜的成绩,仅次于Opus-4.6、GPT-5.4,与Gemini-3.1持平。

另外,在当下行业最关注的 Agent 真实任务执行能力评测上,M2.7 的表现同样出圈。在基于标准化 OpenClaw Agent 测试的 PinchBench 榜单中,刚发布的 M2.7 快速登顶,以 86.2% 的任务成功率击败英伟达 Nemotron 3,拿下了 Best score 榜单的全球第四名,仅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6,刷新了国内大模型在该榜单的最好成绩。

打开网易新闻 查看精彩图片

而此次更新仅仅距离 M2.5 过去一个月。接连刷新的榜单、肉眼可见的能力跃升,都在印证一件事:大模型的能力已经不仅仅局限于答题、写代码的基础能力,正在向自主规划、自主迭代进化。

尤其是 OpenClaw 爆火后,大家更在意的,已经不是模型能不能写代码了,而是接进真实工作流以后到底好不好用。说白了,就是把模型和工具真正接起来跑任务之后,它会不会掉链子,能不能把事情接着往下做。OpenClaw 本身就是冲着这种用法去的,所以现在大家都在找一个更合适的大模型接入。

我们第一时间拿到了上手评测的机会。这一次,我们核心要验证的只有一件事:接入 OpenClaw 之后,M2.7 的真实体验到底如何?M2.7 到底是不是现在国内最好的 Cowork Agent?

打开网易新闻 查看精彩图片

长链路任务的稳定性,才是真分水岭

最近 OpenClaw 这波热度,大家应该都感受得到。现在模型能接进去,真不算新鲜事了,真正开始拉开差距的,是接进去以后到底好不好使。任务短的时候,很多模型都还能装得挺像样;一旦开始挂 skills、开始叠约束、开始把流程拉长,问题就出来了,前面条件没吃透,后面补充一句它就乱,做到一半直接掉线。

OpenClaw 本来就是冲着把模型和工具、会话、任务链路接起来去的,所以放在这个环境里测,反而更容易看出一个模型到底靠不靠谱。

第一个任务是一道约束很多的龙虾活动题,预算、人群、渠道、门店承载、风险和备选方案全都提前卡死,重点就看它会不会先把条件理清,再往下拆。

M2.7 这一步给我的感觉还不错,没有急着往外发散,而是先把约束捞出来,再拆任务,再给方案,这种起手方式就比较让人放心。而这也正是 M2.7 本次升级的核心强化方向 —— 复杂长链路任务的承接与落地,实测下来的表现的确不俗。

接着我把任务再拉长一点。先给一版基础方案,然后一轮一轮往上加条件,不能打折、供应链有限、门店人手少、目标人群变了,最后再加一个更像真实业务会提的要求,希望这套活动下个月还能复用成 SOP。

全程下来,M2.7 没有出现很多模型常见的 “一加需求就推翻重写” 的问题,始终能沿着初始的核心逻辑持续优化迭代,这一点对于长流程工作流来说,至关重要。第三轮迭代中它出现了短暂的卡顿,能看出超长链路中仍有小幅波动,但在追问之后,它快速补齐了所有内容,包括最小可复用版本、标准化执行环节、人工决策节点,完整承接,没有出现信息遗漏。

跑完这两组全链路任务,M2.7 在 OpenClaw 里的表现已经非常清晰:它最核心的价值,不是单轮输出多么惊艳的答案,而是任务启动时逻辑清晰、链路拉长后不易散架、多轮迭代中不丢约束。在真实的工作流里,这种稳定的持续交付能力,远比单轮的华丽输出重要得多。而在复杂长链路任务的承接上,M2.7 已经交出了国内最好的 Cowork Agent该有的满分答卷。

打开网易新闻 查看精彩图片

代码能力全场景验证:从 “写代码” 到 “做项目” 的工程化跃升

真要看编程能力,还是得把项目丢过去。MiniMax 这次公开给出的方向里,Coding 的位置明显更靠前。官方数据显示,在 SWE-Pro 基准测试中,M2.7 得分 56.22%,无限接近 Claude Opus 的顶级水平;在端到端完整项目交付的 VIBE-Pro 测试中得分 55.6%,在复杂工程系统理解的 Terminal Bench 2 测试中得分 57.0%。更重要的是,它的能力早已跳出了单纯的代码生成,延伸到了日志分析、Bug 定位、故障排障、工程重构等高阶开发领域,而这种变化,在实测中有着极为直观的体感。

打开网易新闻 查看精彩图片

在前端测试环节,我们给出了一个品牌展示官网的全量开发需求,这个任务的难度并非简单的页面拼接 ——它会包含品牌调性、视觉配色、页面节奏、交互动效、粒子特效等多个维度,并且多个维度必须同时达标,最终产出的才是一个能真正商用的官网。很多模型在这里最容易翻车的。而 M2.7 的表现也超出了我的意料,尤其是配合官方 Skill 协同运行时,页面的完成度直接拉满,完全没有常见的模板化痕迹,视觉层次、品牌配色、交互动效完全统一,最终交付的是一个可以直接上线使用的完整站点,而非零散的代码片段。

在后端测试环节,我给 M2.7 的不是补几段接口代码的小任务,而是一个从零开始往下搭的真实项目。技术栈用的是 Python、FastAPI 和 PostgreSQL,里面既有接口、数据模型、鉴权这些基础环节,也有迁移、测试、文档和后续排障。这类任务真正难的地方,不在代码量,而在上下文要一直对得上,前面定下来的结构,后面每一步都不能乱。 M2.7 这一轮最让人惊喜的一点,就是它在这种连续工程任务中,更像是资深开发的项目管理思维,而非单纯的代码生成工具:先搭好完整的项目骨架,再逐层补齐数据库设计、业务接口、测试用例、接口文档,项目上线跑通后,遇到问题还能自主排查、快速修复,全程逻辑连贯,没有出现任何架构跑偏、上下文脱节的问题。

M2.7 这次编程能力最明显的变化,不是某个点突然特别炸,而是工程感更强了。前端会往展示结果上收,后端也能按项目节奏一路往下推。现在模型会写代码已经不稀奇了,真正有价值的是项目跑起来之后还能不能继续跟。就这一点看,M2.7 已经不只是一个会生成代码的模型了,而是在往真正能参与开发流程的 Cowork Agent 方向走。放到国内这批模型里,这种工程参与感其实很少见。

打开网易新闻 查看精彩图片

办公自动化全链路考验:覆盖完整知识工作流的协同能力

Office 自动化这块,我没有拿简单表格来试,而是直接上了一条完整链路。先生成一套模拟经营数据,再基于数据做复杂金融图表,最后把图表和数据整理成网页数据报告。这里测的已经不是会不会写公式,而是数据、图表、分析和展示能不能连成一套结果。

打开网易新闻 查看精彩图片

M2.7 这一轮的表现比较扎实。数据生成不是随便拼数字,收入、利润率、现金流、营收这些指标之间有基本逻辑;图表也不是简单折线图,而是把几个关键经营指标放进同一个分析画面里,信息密度和重点都够。继续往下做网页报告时,它也没有停在把图贴上去,而是把核心结论、风险点和管理建议一起整理出来,最后形成的是一份能直接展示的页面,不是一堆零散素材。

打开网易新闻 查看精彩图片

它现在展现出来的,已经不是基础表格处理能力了,而是复杂 Office 自动化能力。数据清洗、图表生成、分析归纳、汇报整理这一整条链路,它都能继续往下做,多轮修改之后结构也没有明显散掉。放到真实办公场景里,这种表现比单独会做 Excel、会写报告更有参考价值,因为它开始覆盖的是更完整的知识工作流程。

从能力边界来看,M2.7 的能力已经不只是停留在办公整理层面。其不仅能完整落地企业经营分析全链路任务,并且对于资料归纳、研究链路梳理、专业分析与结果汇总这类更高阶的知识工作,也能轻松完成。

打开网易新闻 查看精彩图片

最佳 Cowork Agent 来了吗?

这一轮测下来,M2.7 给我最明显的感觉,已经不只是编程能力继续往上走了一点,真正拉开差距的地方,在于它对智能体工作流的支持更完整了。尤其放进 OpenClaw 之后,这种变化会更明显。任务交过去,它不只是给一段回答,很多时候是真的能顺着任务往下做,过程中也没那么容易散。单看这一点,我会直接把 M2.7 放在国内最好 Cowork Agent 的位置上。

如果用几句话概括 M2.7 这次最值得看的地方,核心还是连续性、稳定性和落地感。

不过更值得注意的是,它这次已经开始显出自我迭代能力。

官方给出的路径很清楚,不只是让模型调用 Agent Harness 干活,而是让它基于短时记忆、自反馈和自优化去反复调整自己的做事方法。内部脚手架优化里,M2.7 可以连续跑超过 100 轮分析失败轨迹、规划改动、修改代码、回跑评测、对比结果,再决定保留还是回退,内部评测效果提升 30%。放到更重的机器学习任务里,它在 MLE Bench Lite 22 个任务上拿到 9 金 5 银 1 铜,平均得牌率 66.6%。这说明它已经不只是执行任务,也开始参与优化完成任务的路径。

当下整个行业都在跟风适配 OpenClaw,忙着教模型怎么用好人类打造的工具,却很少有人真正去突破模型的能力边界 —— 让模型自己造工具、自己搭框架、自己完成迭代进化。M2.7 自主搭建 Agent Harness 的能力,本质上是让模型拥有了自主打造 “任务操作台” 的能力,它不再局限于人类给定的工具与框架,而是能根据任务需求,自主搭建完整的任务执行体系,调度多智能体协同作业,甚至能通过自反馈、自优化,持续迭代这套体系本身。

更重要的是,它已经深度参与到了 MiniMax 自身的模型研发流程中,成为了下一代模型研发的核心参与者,真正实现了 “模型训练模型” 的正向循环。这种自我迭代的技术创新,不仅让 M2.7 坐稳了国内最好 Cowork Agent 的位置,更提前抢占了下一代大模型竞争的核心分水岭,开启了大模型自主进化的全新纪元。

显然,M2.7 更适合那些已经不满足于简单问答的人。独立开发者、全栈工程师、产品型开发者,或者本来就会把模型接进自己工作流的人,用起来会更容易感受到它的价值。因为这类用户真正关心的,从来不是模型会不会说几句聪明话,而是能不能把任务拆开、持续推进、出问题后继续修正,最后把结果交出来。

借着M2.7,我们似乎也看到了最强的 Cowork Agent 长什么样子,或许在未来,我们能看到 AI 能承接更多的任务,解决更复杂的任务。

如果你当下正在关注 OpenClaw 的生态,或是正在寻找一款接入后足够顺手、足够能打、能真正融入工作流的大模型,M2.7 绝对值得你亲自上手实测。

体验地址如下,快来试试吧!

MiniMax Agent:

agent.minimaxi.com

Token Plan 订阅:

https://platform.minimaxi.com/subscribe/token-plan