小米MiMo-V2.5-Pro-UltraSpeed正式发布 1T参数模型

CNMO科技

2026-06-09 11:28 ·北京

【CNMO科技消息】6月9日，MiMo×TileRT联合发布Xiaomi MiMo-V2.5-Pro的UltraSpeed模式。通过模型与系统的极致协同设计（Codesign），在通用GPU上首次将万亿参数（1T）模型的生成速度突破1000tokens/s。据悉，UltraSpeed模式采用限时开放、申请制体验。API同步上线，定价为MiMo-V2.5-Pro的3倍，同时提供输出速度约10倍的提升（仅支持API体验，不支持TokenPlan）。由于高速推理资源供给有限，本次体验时间仅限2026年6月9日至6月23日23:59。每个账号每日最多成功进入队列10次，单次会话时长上限30分钟，空闲超5分钟自动释放资源。

在万亿参数尺度上突破1000tps，带来AI应用范式的底层颠覆：

速度转化为智能：在相同等待时间内，模型可并行跑数十条推理路径（Best-of-N/Tree Search），自动验证纠错，提升推理质量。

解放Coding Agent：极速推理让开发者告别等待，实现颠覆性的代码编写速度与生产效率。

万亿模型进入实时决策闭环：毫秒级响应可接入高频量化交易、瞬时反欺诈风控、智能竞价、实时交互对话，乃至手术辅助、医疗影像分析等生命垂危场景——速度成为与死神赛跑的筹码。

实现1T旗舰模型突破1000tps，是MiMo模型与TileRT系统团队深度协作、极致Codesign的成果。业界追求类似速度时往往选择专用硬件（如Cerebras晶圆级集成、Groq定制芯片），而 MiMo×TileRT仅在标准通用GPU上，通过一个8卡节点便实现了这一速度。

模型侧：

FP4量化：针对MoE架构特性，仅对MoE Expert进行FP4量化（经QAT量化感知训练），大幅缩减模型体积、榨干硬件带宽，同时保持模型能力基本持平。

DFlash投机解码：采用块级masked并行预测方法，draft模型一次前向填出一整块mask位置，解除串行约束。结合滑动窗口注意力（SWA），使draft不再依赖完整前缀，算力从线性增长变为常数级。在coding场景中平均接受长度达6.30，最高7.14。

系统侧：

TileRT执行模型：引入常驻内核引擎（Persistent Engine Kernel），抛弃逐算子启动模式，让计算流水线常驻GPU内部持续流转，实现数据搬运与计算极致重叠。

异构流水线协作（Warp Specialization）：在Tile级别将通信、搬运、张量计算精细拆解，让不同线程束精密协作，将GPU演化为持续流动的异构执行系统。

软硬件深度收敛：TileRT配合FP4量化与DFlash算法，量身定制编译引擎与计算核，实现微秒级尺度下的联合工程优化。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴