“1兆参数模型,每秒1000个token,一块通用GPU就够了。”6月9日,小米联合TileRT发布了MiMo-V2.5-Pro-UltraSpeed推理服务,首次在万亿参数级别模型上突破了1000 tokens/s的解码速度。

这个速度不是靠Cerebras那种晶圆级集成方案堆出来的,也不是纯软件优化打鸡血。它跑在8块GPU组成的单个通用计算节点上——就是你能在云厂商那里租到的那种标准配置。

打开网易新闻 查看精彩图片

底层模型是MiMo-V2.5-Pro-FP4-DFlash,一个FP4精度的万亿参数模型,已经在Hugging Face开源。小米的工程师团队做了三件事:大幅压缩模型体积、把硬件带宽利用率拉到极限、砍掉内存访问时的冗余操作。然后他们就得到了这个数字。

打开网易新闻 查看精彩图片

对于开发者来说,这个速度意味着什么?小米自己的说法是,它会让AI应用的形态“从根本改变”。以前你丢一个难题给AI,只能干坐着等一个答案,然后祈祷它是对的。现在可以在同等时间内并行跑几十次推理,后台自动做验证和自我修正。再说代码生成场景——过去你让AI写代码,推演延迟让你盯着屏幕发呆;1000 tokens/s的速度下,这个等待感消失了。

官方放出的对比演示里,MiMo-V2.5-Pro-UltraSpeed处理同样任务的速度明显快于前代MiMo-V2.5-Pro。金融交易、医疗诊断这类对响应速度极端敏感的行业,被认为是直接受益方。

打开网易新闻 查看精彩图片

API已经开放,但别急着往生产环境切。定价是MiMo-V2.5-Pro标准版的3倍,官方宣称生成速度是后者的约10倍。需要说明的是,高速推理资源有限,目前采用的是限时申请制——不是申请了就能过,企业和专业开发者优先。每个账号每天最多排队10次,单次会话最长30分钟,超过5分钟没动静会自动释放资源。

所以实际体验会是:你能感受到它有多快,但未必能随时用上它。服务背后的技术路线选择倒是值得留意——业界不少方案在追逐专用硬件来突破推理瓶颈,小米这次押注的是在通用GPU上把软件工程做到极致。底层模型开源这个动作,让这条技术路线有了被复现和被挑战的可能。