小米开源模型5小时写编译器，token消耗砍半|token|上下文|代码|小米集团|开源模型|编译器|编辑器|自然语言|调用

什么任务能让AI连续跑11小时不出错？小米刚放出的MiMo-V2.5-Pro给出了答案：写编译器、搭视频编辑器、设计电路，全程自主完成，token消耗比Claude Opus 4.6少40%到60%。

从学生几周到AI四小时

北京大学有一门编译器课程，学生通常需要数周才能完成的项目，MiMo-V2.5-Pro用了4.3小时。

整个过程拆解成672次工具调用。小米展示的demo里，模型先搭出完整流水线框架，再逐层推进。第一次编译就通过137项测试，总分233项。后续重构阶段引入回归问题，模型自己诊断并修复。

这个成绩背后是一套明确的工程策略：不追求单次生成完美，而是分层验证、自我纠错。

第二个demo更耗时长：桌面视频编辑器，约8000行代码，模型自主运行11.5小时，调用工具1870次。第三个demo接入了Claude Code的电路模拟器，设计电压调节器，一小时内六项技术指标全部达标，其中四项比初稿提升约一个数量级。

1.02万亿参数，每次只激活42亿

MiMo-V2.5-Pro采用混合专家架构（Mixture-of-Experts，MoE），总参数量1.02万亿，单次请求激活42亿。这种设计让大模型在保持能力的同时控制计算成本。

上下文窗口分两个版本：主版本支持100万token，基础版本未经重新训练支持25.6万token。这个规格放在当前市场属于第一梯队。

长上下文能力的提升在OpenAI的GraphWalks基准测试中最明显。前代MiMo-V2-Pro在100万token处得分归零，MiMo-V2.5-Pro的广度优先搜索仍得0.37，父节点查询得0.62。

token效率是核心卖点

小米把MiMo-V2.5-Pro的竞争力押在"性能/token比"上。自家ClawEval智能体基准测试中，模型以每任务约7万token的消耗达到64%得分。相比之下，Claude Opus 4.6、Gemini 3.1 Pro、GPT-5.4达到相近分数需要多耗40%到60%的token。

代码基准的具体数字：SWE-bench Verified 78.9分，SWE-Bench Pro 57.2分，Terminal-Bench 2.0 68.4分。小米内部MiMo Coding Bench 73.7分，接近Claude Opus 4.6的77.1分，领先Gemini 3.1 Pro的67.8分。

通用智能体任务：GDPVal-AA 1581 Elo分，tau3-bench 72.9分。

开源权重，瞄准长时自主任务

MiMo团队明确表示，这个版本专为"运行数小时、产生数千次工具调用"的任务设计。这不是聊天机器人的迭代，而是面向工程自动化的基础设施。

开源权重的策略也很清晰：降低试用门槛，让开发者验证真实场景下的长时稳定性。编译器demo的233/233满分、视频编辑器的11.5小时无中断，都是可复现的测试用例。

对科技从业者来说，这组数据的意义在于验证了一条技术路径：MoE架构+分层验证机制+超长上下文，可以让大模型在特定工程任务上接近甚至匹敌闭源顶尖模型，同时显著降低调用成本。如果你的工作流涉及代码生成、硬件设计或复杂系统搭建，这个开源选项值得纳入评估清单。

小米开源模型5小时写编译器，token消耗砍半

热搜

热门跟贴

热搜

热门跟贴

相关推荐

Anthropic 搞了个全是 AI 的闲鱼群，大模型在里面互割起了韭菜

小米澎湃OS3.0仅推两台设备背后策略藏着生态大棋？

Claude被吐槽3年不会画图，开发者用1个协议让它秒变多模态

程序员花2小时造了10万条假数据，甲方验收时直说"比真的还真"

新工程师要熬6个月才看懂代码？她造了个工具

FastAPI生产环境7个坑：第3个让某厂API崩了4小时

砸500亿造芯、赌身家造车！雷军的“骑虎难下”，比你想的更残酷

小米汽车，宣传片都不用拍了， 因为车主们自己就会！

小米SU7Ultra，提车不到24小时就车损了，受伤的地方意想不到

6小时，200美元，0人类代码：Anthropic把AI编程推过了临界点

由豆包付费想到，AI到底会长成一门什么生意

1分钟烧光4亿Token！OpenAI最疯狂的男人，逼奥特曼亲自加额度

AI自己造AI，概率60%，2028年底前！Anthropic联创坐不住了

让两个大模型在线吵架，跑通全网95%科研代码｜深势Deploy-Master

RouteMoA：无需预推理的动态路由，实现高效多智能体混合

中国创造一门新编程语言的黄金时代来了？

拒绝智能手机，炮轰ChatGPT，没有他就没有今天的互联网

大型挂机现场：马斯克的55万英伟达GPU，利用率才11%

ACL 2026｜AI for聋哑群体，港理工开源思考型手语翻译模型

旧金山悖论：技术狂飙，城市失重｜记者手记

小米汽车，宣传片都不用拍了，因为车主们自己就会！