每秒1479 token，但推理短板太扎眼，谷歌新扩散模型有点偏科|token|大模型|扩散模型|推理短板|数学|知名企业|谷歌

一秒吐出1479个token，启动延迟不到0.9秒。谷歌刚刚开源的DiffusionGemma，把本地大模型推理速度直接拉高了4倍。但这套新架构在科学推理上却掉链子——GPQA Diamond只拿到40.4%，被对比的密集模型甩开一截。速度与智商似乎只能二选一。

谷歌把这次的新玩意儿称为“基于文本扩散机制的开放AI模型”。和现在主流的自回归模型（比如GPT、Gemini那种从左往右一个token一个token往外蹦的架构）不同，扩散模型玩了把并行。它不是咬住前文逐个生成，而是在一堆噪声里，对所有token同时做去噪优化，一遍遍把结果打磨清晰。

这就直接掐住了本地推理的痛处。自回归模型在云端做批处理效率还行，一旦落到个人设备上，受限的内存带宽让它空转得厉害。扩散模型的并行特点，天然适合低带宽环境，相当于把原本一次只能过一根针的线，改成了同时穿一大把。

我们捡重点，拆开看这个DiffusionGemma到底几斤几两。

第一，速度真是快，而且快得实在。
英伟达官方博文给了实测数据。单块H100 GPU上跑到每秒1000个token，DGX Spark上每秒150个token，DGX Station上直接干到每秒2000个token。同等条件下，比自回归模型平均快4倍。采样速度峰值达到1479 token/秒，开销只有0.84秒。这个开销数字很关键——意味着用户敲完提示词后，几乎感觉不到初始化等待，结果就开始往外喷了。对本地聊天、代码补全这种交互场景，体感提升远比跑分数字来得直接。

第二，开源诚意够，但别拿它到处比。
模型用Apache 2.0许可证开源，权重直接放在Hugging Face上可下载。能力上，谷歌宣称与其他Gemma 4模型相当，但推理效率明显高出一截。注意这里的措辞——“能力相当”，不是全面碾压。再看跑分就会明白，这句话翻译过来其实是：有些科目打平，有些科目被按在地上摩擦。

第三，代码和数学确实能打。
代码生成三项基准：LiveCodeBench拿到30.9%，BigCodeBench 45.4%，HumanEval直接飙到89.6%。这个表现和Gemini 2.0 Flash-Lite互有胜负，说明扩散架构在需要一次性产出整段代码的任务上，并行生成的优势被放大了。数学更是亮点，AIME 2025分数23.3%，压过了对比模型的20.0%。虽然23.3%听起来不高，但竞赛级数学推理对模型要求极其苛刻，扩散模型这次算是给这条技术路线争了口气。

第四，科学推理和复杂推理短板明显，吐槽都压不住。
一到科学推理GPQA Diamond，DiffusionGemma只拿到40.4%，对比模型是56.5%，差距肉眼可见。BIG-Bench Extra Hard这种硬核推理任务，15.0%对21.0%，也是落后。这就很尴尬了——速度快是真快，但在需要深层因果推理、跨学科知识融合的场景里，并行去噪的方法似乎还没抓到窍门。别急着拿它去做论文审稿或者物理推导，容易闹笑话。

第五，迭代纠错是张安全牌，但别过度神化。
谷歌提到扩散模型在生成过程中支持迭代优化，能主动纠正错误，输出更稳定一致。这一点在数学和代码上可能确实帮了忙，生成一大段东西时中间出了偏差，后续打磨步骤还能往回拉一把。但从GPQA Diamond和BIG-Bench Extra Hard的惨淡成绩来看，这套纠错机制对需要复杂推理的题目作用有限。该错还是错，回头改三遍也不如人家一遍过。

总体看下来，DiffusionGemma给出一个很直白的信号：本地大模型的推理效率竞赛，换一条跑道也能跑得很凶。自回归不是唯一解，扩散模型在特定计算环境下能把延迟和吞吐做到让人眼前一亮。但它的上限也很清楚——速度快不意味着变聪明，有些硬骨头还得靠架构演进或者训练策略补课。对那些需要秒回、又不太涉足高难度推理的本地任务来说，这是个有趣的备选项。至于要拼智商，还是再等等下一个checkpoint吧。