不卷跑分不养虾，MiniMax M2.7 带来了一个真正能打的 Cowork Agent|agent|minimax|代码|工作流|电子表格|编程

3月18日晚，Minimax 悄悄上了波大分。

更新了其最新的M2.7版本，并且官方还给出了一个核心定义：M2.7，是 MiniMax 第一代深度参与自身进化的模型。

其不仅在指令遵循、办公协同、Coding 方面有明显提升，更重要的是它能够自主搭建 Agent Harness。也就是说，它能搭出一套完整的任务框架，调用各种技能和工具，解决单个模型搞不定的问题，思考干活两手抓，妥妥的“自我进化”。

但这不是光说不练，Minimax还甩出了可验证的测试数据。在测试中，测试员给它甩在了MLE Lite 22道高难度竞赛中，M2.7取得了9金5银1铜的成绩，仅次于Opus-4.6、GPT-5.4，与Gemini-3.1持平。

另外，在当下行业最关注的 Agent 真实任务执行能力评测上，M2.7 的表现同样出圈。在基于标准化 OpenClaw Agent 测试的 PinchBench 榜单中，刚发布的 M2.7 快速登顶，以 86.2% 的任务成功率击败英伟达 Nemotron 3，拿下了 Best score 榜单的全球第四名，仅次于 Claude Sonnet 4.6、GPT-5.4、Claude Opus 4.6，刷新了国内大模型在该榜单的最好成绩。

而此次更新仅仅距离 M2.5 过去一个月。接连刷新的榜单、肉眼可见的能力跃升，都在印证一件事：大模型的能力已经不仅仅局限于答题、写代码的基础能力，正在向自主规划、自主迭代进化。

尤其是 OpenClaw 爆火后，大家更在意的，已经不是模型能不能写代码了，而是接进真实工作流以后到底好不好用。说白了，就是把模型和工具真正接起来跑任务之后，它会不会掉链子，能不能把事情接着往下做。OpenClaw 本身就是冲着这种用法去的，所以现在大家都在找一个更合适的大模型接入。

我们第一时间拿到了上手评测的机会。这一次，我们核心要验证的只有一件事：接入 OpenClaw 之后，M2.7 的真实体验到底如何？M2.7 到底是不是现在国内最好的 Cowork Agent？

长链路任务的稳定性，才是真分水岭

最近 OpenClaw 这波热度，大家应该都感受得到。现在模型能接进去，真不算新鲜事了，真正开始拉开差距的，是接进去以后到底好不好使。任务短的时候，很多模型都还能装得挺像样；一旦开始挂 skills、开始叠约束、开始把流程拉长，问题就出来了，前面条件没吃透，后面补充一句它就乱，做到一半直接掉线。

OpenClaw 本来就是冲着把模型和工具、会话、任务链路接起来去的，所以放在这个环境里测，反而更容易看出一个模型到底靠不靠谱。

第一个任务是一道约束很多的龙虾活动题，预算、人群、渠道、门店承载、风险和备选方案全都提前卡死，重点就看它会不会先把条件理清，再往下拆。

M2.7 这一步给我的感觉还不错，没有急着往外发散，而是先把约束捞出来，再拆任务，再给方案，这种起手方式就比较让人放心。而这也正是 M2.7 本次升级的核心强化方向 —— 复杂长链路任务的承接与落地，实测下来的表现的确不俗。

接着我把任务再拉长一点。先给一版基础方案，然后一轮一轮往上加条件，不能打折、供应链有限、门店人手少、目标人群变了，最后再加一个更像真实业务会提的要求，希望这套活动下个月还能复用成 SOP。

全程下来，M2.7 没有出现很多模型常见的 “一加需求就推翻重写” 的问题，始终能沿着初始的核心逻辑持续优化迭代，这一点对于长流程工作流来说，至关重要。第三轮迭代中它出现了短暂的卡顿，能看出超长链路中仍有小幅波动，但在追问之后，它快速补齐了所有内容，包括最小可复用版本、标准化执行环节、人工决策节点，完整承接，没有出现信息遗漏。

跑完这两组全链路任务，M2.7 在 OpenClaw 里的表现已经非常清晰：它最核心的价值，不是单轮输出多么惊艳的答案，而是任务启动时逻辑清晰、链路拉长后不易散架、多轮迭代中不丢约束。在真实的工作流里，这种稳定的持续交付能力，远比单轮的华丽输出重要得多。而在复杂长链路任务的承接上，M2.7 已经交出了国内最好的 Cowork Agent该有的满分答卷。

代码能力全场景验证：从 “写代码” 到 “做项目” 的工程化跃升

真要看编程能力，还是得把项目丢过去。MiniMax 这次公开给出的方向里，Coding 的位置明显更靠前。官方数据显示，在 SWE-Pro 基准测试中，M2.7 得分 56.22%，无限接近 Claude Opus 的顶级水平；在端到端完整项目交付的 VIBE-Pro 测试中得分 55.6%，在复杂工程系统理解的 Terminal Bench 2 测试中得分 57.0%。更重要的是，它的能力早已跳出了单纯的代码生成，延伸到了日志分析、Bug 定位、故障排障、工程重构等高阶开发领域，而这种变化，在实测中有着极为直观的体感。

在前端测试环节，我们给出了一个品牌展示官网的全量开发需求，这个任务的难度并非简单的页面拼接 ——它会包含品牌调性、视觉配色、页面节奏、交互动效、粒子特效等多个维度，并且多个维度必须同时达标，最终产出的才是一个能真正商用的官网。很多模型在这里最容易翻车的。而 M2.7 的表现也超出了我的意料，尤其是配合官方 Skill 协同运行时，页面的完成度直接拉满，完全没有常见的模板化痕迹，视觉层次、品牌配色、交互动效完全统一，最终交付的是一个可以直接上线使用的完整站点，而非零散的代码片段。

在后端测试环节，我给 M2.7 的不是补几段接口代码的小任务，而是一个从零开始往下搭的真实项目。技术栈用的是 Python、FastAPI 和 PostgreSQL，里面既有接口、数据模型、鉴权这些基础环节，也有迁移、测试、文档和后续排障。这类任务真正难的地方，不在代码量，而在上下文要一直对得上，前面定下来的结构，后面每一步都不能乱。 M2.7 这一轮最让人惊喜的一点，就是它在这种连续工程任务中，更像是资深开发的项目管理思维，而非单纯的代码生成工具：先搭好完整的项目骨架，再逐层补齐数据库设计、业务接口、测试用例、接口文档，项目上线跑通后，遇到问题还能自主排查、快速修复，全程逻辑连贯，没有出现任何架构跑偏、上下文脱节的问题。

M2.7 这次编程能力最明显的变化，不是某个点突然特别炸，而是工程感更强了。前端会往展示结果上收，后端也能按项目节奏一路往下推。现在模型会写代码已经不稀奇了，真正有价值的是项目跑起来之后还能不能继续跟。就这一点看，M2.7 已经不只是一个会生成代码的模型了，而是在往真正能参与开发流程的 Cowork Agent 方向走。放到国内这批模型里，这种工程参与感其实很少见。

办公自动化全链路考验：覆盖完整知识工作流的协同能力

Office 自动化这块，我没有拿简单表格来试，而是直接上了一条完整链路。先生成一套模拟经营数据，再基于数据做复杂金融图表，最后把图表和数据整理成网页数据报告。这里测的已经不是会不会写公式，而是数据、图表、分析和展示能不能连成一套结果。

M2.7 这一轮的表现比较扎实。数据生成不是随便拼数字，收入、利润率、现金流、营收这些指标之间有基本逻辑；图表也不是简单折线图，而是把几个关键经营指标放进同一个分析画面里，信息密度和重点都够。继续往下做网页报告时，它也没有停在把图贴上去，而是把核心结论、风险点和管理建议一起整理出来，最后形成的是一份能直接展示的页面，不是一堆零散素材。

它现在展现出来的，已经不是基础表格处理能力了，而是复杂 Office 自动化能力。数据清洗、图表生成、分析归纳、汇报整理这一整条链路，它都能继续往下做，多轮修改之后结构也没有明显散掉。放到真实办公场景里，这种表现比单独会做 Excel、会写报告更有参考价值，因为它开始覆盖的是更完整的知识工作流程。

从能力边界来看，M2.7 的能力已经不只是停留在办公整理层面。其不仅能完整落地企业经营分析全链路任务，并且对于资料归纳、研究链路梳理、专业分析与结果汇总这类更高阶的知识工作，也能轻松完成。

最佳 Cowork Agent 来了吗？

这一轮测下来，M2.7 给我最明显的感觉，已经不只是编程能力继续往上走了一点，真正拉开差距的地方，在于它对智能体工作流的支持更完整了。尤其放进 OpenClaw 之后，这种变化会更明显。任务交过去，它不只是给一段回答，很多时候是真的能顺着任务往下做，过程中也没那么容易散。单看这一点，我会直接把 M2.7 放在国内最好 Cowork Agent 的位置上。

如果用几句话概括 M2.7 这次最值得看的地方，核心还是连续性、稳定性和落地感。

不过更值得注意的是，它这次已经开始显出自我迭代能力。

官方给出的路径很清楚，不只是让模型调用 Agent Harness 干活，而是让它基于短时记忆、自反馈和自优化去反复调整自己的做事方法。内部脚手架优化里，M2.7 可以连续跑超过 100 轮分析失败轨迹、规划改动、修改代码、回跑评测、对比结果，再决定保留还是回退，内部评测效果提升 30%。放到更重的机器学习任务里，它在 MLE Bench Lite 22 个任务上拿到 9 金 5 银 1 铜，平均得牌率 66.6%。这说明它已经不只是执行任务，也开始参与优化完成任务的路径。

当下整个行业都在跟风适配 OpenClaw，忙着教模型怎么用好人类打造的工具，却很少有人真正去突破模型的能力边界 —— 让模型自己造工具、自己搭框架、自己完成迭代进化。M2.7 自主搭建 Agent Harness 的能力，本质上是让模型拥有了自主打造 “任务操作台” 的能力，它不再局限于人类给定的工具与框架，而是能根据任务需求，自主搭建完整的任务执行体系，调度多智能体协同作业，甚至能通过自反馈、自优化，持续迭代这套体系本身。

更重要的是，它已经深度参与到了 MiniMax 自身的模型研发流程中，成为了下一代模型研发的核心参与者，真正实现了 “模型训练模型” 的正向循环。这种自我迭代的技术创新，不仅让 M2.7 坐稳了国内最好 Cowork Agent 的位置，更提前抢占了下一代大模型竞争的核心分水岭，开启了大模型自主进化的全新纪元。

显然，M2.7 更适合那些已经不满足于简单问答的人。独立开发者、全栈工程师、产品型开发者，或者本来就会把模型接进自己工作流的人，用起来会更容易感受到它的价值。因为这类用户真正关心的，从来不是模型会不会说几句聪明话，而是能不能把任务拆开、持续推进、出问题后继续修正，最后把结果交出来。

借着M2.7，我们似乎也看到了最强的 Cowork Agent 长什么样子，或许在未来，我们能看到 AI 能承接更多的任务，解决更复杂的任务。

如果你当下正在关注 OpenClaw 的生态，或是正在寻找一款接入后足够顺手、足够能打、能真正融入工作流的大模型，M2.7 绝对值得你亲自上手实测。