一秒吐出1479个token,启动延迟不到0.9秒。谷歌刚刚开源的DiffusionGemma,把本地大模型推理速度直接拉高了4倍。但这套新架构在科学推理上却掉链子——GPQA Diamond只拿到40.4%,被对比的密集模型甩开一截。速度与智商似乎只能二选一。
谷歌把这次的新玩意儿称为“基于文本扩散机制的开放AI模型”。和现在主流的自回归模型(比如GPT、Gemini那种从左往右一个token一个token往外蹦的架构)不同,扩散模型玩了把并行。它不是咬住前文逐个生成,而是在一堆噪声里,对所有token同时做去噪优化,一遍遍把结果打磨清晰。
这就直接掐住了本地推理的痛处。自回归模型在云端做批处理效率还行,一旦落到个人设备上,受限的内存带宽让它空转得厉害。扩散模型的并行特点,天然适合低带宽环境,相当于把原本一次只能过一根针的线,改成了同时穿一大把。
我们捡重点,拆开看这个DiffusionGemma到底几斤几两。
第一,速度真是快,而且快得实在。
英伟达官方博文给了实测数据。单块H100 GPU上跑到每秒1000个token,DGX Spark上每秒150个token,DGX Station上直接干到每秒2000个token。同等条件下,比自回归模型平均快4倍。采样速度峰值达到1479 token/秒,开销只有0.84秒。这个开销数字很关键——意味着用户敲完提示词后,几乎感觉不到初始化等待,结果就开始往外喷了。对本地聊天、代码补全这种交互场景,体感提升远比跑分数字来得直接。
第二,开源诚意够,但别拿它到处比。
模型用Apache 2.0许可证开源,权重直接放在Hugging Face上可下载。能力上,谷歌宣称与其他Gemma 4模型相当,但推理效率明显高出一截。注意这里的措辞——“能力相当”,不是全面碾压。再看跑分就会明白,这句话翻译过来其实是:有些科目打平,有些科目被按在地上摩擦。
第三,代码和数学确实能打。
代码生成三项基准:LiveCodeBench拿到30.9%,BigCodeBench 45.4%,HumanEval直接飙到89.6%。这个表现和Gemini 2.0 Flash-Lite互有胜负,说明扩散架构在需要一次性产出整段代码的任务上,并行生成的优势被放大了。数学更是亮点,AIME 2025分数23.3%,压过了对比模型的20.0%。虽然23.3%听起来不高,但竞赛级数学推理对模型要求极其苛刻,扩散模型这次算是给这条技术路线争了口气。
第四,科学推理和复杂推理短板明显,吐槽都压不住。
一到科学推理GPQA Diamond,DiffusionGemma只拿到40.4%,对比模型是56.5%,差距肉眼可见。BIG-Bench Extra Hard这种硬核推理任务,15.0%对21.0%,也是落后。这就很尴尬了——速度快是真快,但在需要深层因果推理、跨学科知识融合的场景里,并行去噪的方法似乎还没抓到窍门。别急着拿它去做论文审稿或者物理推导,容易闹笑话。
第五,迭代纠错是张安全牌,但别过度神化。
谷歌提到扩散模型在生成过程中支持迭代优化,能主动纠正错误,输出更稳定一致。这一点在数学和代码上可能确实帮了忙,生成一大段东西时中间出了偏差,后续打磨步骤还能往回拉一把。但从GPQA Diamond和BIG-Bench Extra Hard的惨淡成绩来看,这套纠错机制对需要复杂推理的题目作用有限。该错还是错,回头改三遍也不如人家一遍过。
总体看下来,DiffusionGemma给出一个很直白的信号:本地大模型的推理效率竞赛,换一条跑道也能跑得很凶。自回归不是唯一解,扩散模型在特定计算环境下能把延迟和吞吐做到让人眼前一亮。但它的上限也很清楚——速度快不意味着变聪明,有些硬骨头还得靠架构演进或者训练策略补课。对那些需要秒回、又不太涉足高难度推理的本地任务来说,这是个有趣的备选项。至于要拼智商,还是再等等下一个checkpoint吧。
热门跟贴