小米发布兆级模型推理服务：单卡通用GPU跑出每秒千token|gpu|mimo|token|单卡通用|小米集团|开源模型|推理服务|知名企业|速度

“1兆参数模型，每秒1000个token，一块通用GPU就够了。”6月9日，小米联合TileRT发布了MiMo-V2.5-Pro-UltraSpeed推理服务，首次在万亿参数级别模型上突破了1000 tokens/s的解码速度。

这个速度不是靠Cerebras那种晶圆级集成方案堆出来的，也不是纯软件优化打鸡血。它跑在8块GPU组成的单个通用计算节点上——就是你能在云厂商那里租到的那种标准配置。

底层模型是MiMo-V2.5-Pro-FP4-DFlash，一个FP4精度的万亿参数模型，已经在Hugging Face开源。小米的工程师团队做了三件事：大幅压缩模型体积、把硬件带宽利用率拉到极限、砍掉内存访问时的冗余操作。然后他们就得到了这个数字。

对于开发者来说，这个速度意味着什么？小米自己的说法是，它会让AI应用的形态“从根本改变”。以前你丢一个难题给AI，只能干坐着等一个答案，然后祈祷它是对的。现在可以在同等时间内并行跑几十次推理，后台自动做验证和自我修正。再说代码生成场景——过去你让AI写代码，推演延迟让你盯着屏幕发呆；1000 tokens/s的速度下，这个等待感消失了。

官方放出的对比演示里，MiMo-V2.5-Pro-UltraSpeed处理同样任务的速度明显快于前代MiMo-V2.5-Pro。金融交易、医疗诊断这类对响应速度极端敏感的行业，被认为是直接受益方。