小米AI完成三项重要突破！Xiaomi MiMo-V2.5-Pro-UltraSpeed模式刷新全球推理速度|gpu|mimo|ultraspeed|xiaomi|小米ai|小米集团|开源模型|推理|速度

6月8日晚，小米MiMo技术团队正式上线Xiaomi MiMo-V2.5-Pro-UltraSpeed模式，这是全球首个在通用 GPU 上推理速度突破1000 tokens/s的万亿参数模型，刷新旗舰模型全球推理最快速度。

MiMo-V2.5-Pro-UltraSpeed通过对模型推理系统的全链路工程能力优化，在不降低模型能力前提下，首次把推理速度提升至1000 tokens/s，且无需定制芯片、只使用通用GPU即可达成。这一突破打破了“快、强、通用 GPU无法兼得”的行业不可能三角，小米MiMo大模型推理工程实力跻身全球第一梯队。

即日起至6月23日，MiMo-V2-Pro-UltraSpeed模式将采取申请制限时开放，通过申请的用户可接入API进行体验。MiMo-V2.5-Pro-UltraSpeed API 同步上线，采用限时体验价，定价为 MiMo-V2.5-Pro 的 3 倍，同时提供输出速度约 10 倍的提升，目前仅支持 API 体验，不支持 Token Plan。

值得一提的是，自4月底以来，小米AI在模型能力、推理成本和推理效率三个维度接连取得突破：4月23日， MiMo-V2.5-Pro在全球权威大模型测评平台Artificial Analysis上，获得综合智能指数与Agent指数全球开源模型并列第一；5月27日，Xiaomi MiMo-V2.5系列模型API因技术优化宣布最高降价99%，并同步调整Token Plan计费体系。6月8日，MiMo-V2.5-Pro-UltraSpeed以1000 tokens/s创下万亿参数旗舰模型推理速度新纪录。

全链路优化工程能力突破

打破“快、强、通用”不可能三角

过去，大模型领域存在一个隐形瓶颈：速度快的模型往往参数小、能力弱；能力强的模型又因为体量庞大而响应缓慢，且很多高速推理模型依赖昂贵的专用芯片。

Xiaomi MiMo-V2.5-Pro-UltraSpeed模式用通用GPU实现了万亿参数模型的1000 tokens/s推理速度，让大模型在不降低模型能力的前提下，获得接近实时的复杂任务响应能力，成为全球首个达到这一速度水平的万亿参数模型。

小米MiMo技术团队表示，该突破是基于Xiaomi MiMo-V2.5 Pro的SWA架构，叠加了 FP4 Experts、DFlash 解码以及TileRT团队的执行系统 Co‑design，从模型到推理引擎再到GPU执行路径进行了全链路优化。这是小米AI在模型推理系统全链路优化工程能力的新突破，打破了“快、强、通用GPU无法兼得”的行业不可能三角，推理工程实力跻身全球第一梯队。

Xiaomi MiMo-V2.5-Pro-UltraSpeed的发布，标志着旗舰大模型开始迈入新的推理效率阶段，也为未来更广泛的实时应用场景提供了可能。