什么任务能让AI连续跑11小时不出错?小米刚放出的MiMo-V2.5-Pro给出了答案:写编译器、搭视频编辑器、设计电路,全程自主完成,token消耗比Claude Opus 4.6少40%到60%。

从学生几周到AI四小时

打开网易新闻 查看精彩图片

北京大学有一门编译器课程,学生通常需要数周才能完成的项目,MiMo-V2.5-Pro用了4.3小时。

整个过程拆解成672次工具调用。小米展示的demo里,模型先搭出完整流水线框架,再逐层推进。第一次编译就通过137项测试,总分233项。后续重构阶段引入回归问题,模型自己诊断并修复。

这个成绩背后是一套明确的工程策略:不追求单次生成完美,而是分层验证、自我纠错。

第二个demo更耗时长:桌面视频编辑器,约8000行代码,模型自主运行11.5小时,调用工具1870次。第三个demo接入了Claude Code的电路模拟器,设计电压调节器,一小时内六项技术指标全部达标,其中四项比初稿提升约一个数量级。

1.02万亿参数,每次只激活42亿

MiMo-V2.5-Pro采用混合专家架构(Mixture-of-Experts,MoE),总参数量1.02万亿,单次请求激活42亿。这种设计让大模型在保持能力的同时控制计算成本。

上下文窗口分两个版本:主版本支持100万token,基础版本未经重新训练支持25.6万token。这个规格放在当前市场属于第一梯队。

上下文能力的提升在OpenAI的GraphWalks基准测试中最明显。前代MiMo-V2-Pro在100万token处得分归零,MiMo-V2.5-Pro的广度优先搜索仍得0.37,父节点查询得0.62。

token效率是核心卖点

小米把MiMo-V2.5-Pro的竞争力押在"性能/token比"上。自家ClawEval智能体基准测试中,模型以每任务约7万token的消耗达到64%得分。相比之下,Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4达到相近分数需要多耗40%到60%的token。

代码基准的具体数字:SWE-bench Verified 78.9分,SWE-Bench Pro 57.2分,Terminal-Bench 2.0 68.4分。小米内部MiMo Coding Bench 73.7分,接近Claude Opus 4.6的77.1分,领先Gemini 3.1 Pro的67.8分。

通用智能体任务:GDPVal-AA 1581 Elo分,tau3-bench 72.9分。

开源权重,瞄准长时自主任务

MiMo团队明确表示,这个版本专为"运行数小时、产生数千次工具调用"的任务设计。这不是聊天机器人的迭代,而是面向工程自动化的基础设施。

开源权重的策略也很清晰:降低试用门槛,让开发者验证真实场景下的长时稳定性。编译器demo的233/233满分、视频编辑器的11.5小时无中断,都是可复现的测试用例。

对科技从业者来说,这组数据的意义在于验证了一条技术路径:MoE架构+分层验证机制+超长上下文,可以让大模型在特定工程任务上接近甚至匹敌闭源顶尖模型,同时显著降低调用成本。如果你的工作流涉及代码生成、硬件设计或复杂系统搭建,这个开源选项值得纳入评估清单。