【CNMO科技消息】6月9日,MiMo×TileRT联合发布Xiaomi MiMo-V2.5-Pro的UltraSpeed模式。通过模型与系统的极致协同设计(Codesign),在通用GPU上首次将万亿参数(1T)模型的生成速度突破1000tokens/s。据悉,UltraSpeed模式采用限时开放、申请制体验。API同步上线,定价为MiMo-V2.5-Pro的3倍,同时提供输出速度约10倍的提升(仅支持API体验,不支持TokenPlan)。由于高速推理资源供给有限,本次体验时间仅限2026年6月9日至6月23日23:59。每个账号每日最多成功进入队列10次,单次会话时长上限30分钟,空闲超5分钟自动释放资源。
在万亿参数尺度上突破1000tps,带来AI应用范式的底层颠覆:
速度转化为智能:在相同等待时间内,模型可并行跑数十条推理路径(Best-of-N/Tree Search),自动验证纠错,提升推理质量。
解放Coding Agent:极速推理让开发者告别等待,实现颠覆性的代码编写速度与生产效率。
万亿模型进入实时决策闭环:毫秒级响应可接入高频量化交易、瞬时反欺诈风控、智能竞价、实时交互对话,乃至手术辅助、医疗影像分析等生命垂危场景——速度成为与死神赛跑的筹码。
实现1T旗舰模型突破1000tps,是MiMo模型与TileRT系统团队深度协作、极致Codesign的成果。业界追求类似速度时往往选择专用硬件(如Cerebras晶圆级集成、Groq定制芯片),而 MiMo×TileRT仅在标准通用GPU上,通过一个8卡节点便实现了这一速度。
模型侧:
FP4量化:针对MoE架构特性,仅对MoE Expert进行FP4量化(经QAT量化感知训练),大幅缩减模型体积、榨干硬件带宽,同时保持模型能力基本持平。
DFlash投机解码:采用块级masked并行预测方法,draft模型一次前向填出一整块mask位置,解除串行约束。结合滑动窗口注意力(SWA),使draft不再依赖完整前缀,算力从线性增长变为常数级。在coding场景中平均接受长度达6.30,最高7.14。
系统侧:
TileRT执行模型:引入常驻内核引擎(Persistent Engine Kernel),抛弃逐算子启动模式,让计算流水线常驻GPU内部持续流转,实现数据搬运与计算极致重叠。
异构流水线协作(Warp Specialization):在Tile级别将通信、搬运、张量计算精细拆解,让不同线程束精密协作,将GPU演化为持续流动的异构执行系统。
软硬件深度收敛:TileRT配合FP4量化与DFlash算法,量身定制编译引擎与计算核,实现微秒级尺度下的联合工程优化。
热门跟贴