谷歌推出扩散Gemma模型，生成速度提升4倍|底层逻辑|扩散gemma|知名企业|谷歌|速度

谷歌在去年I/O开发者大会上短暂展示过一种扩散模型，之后便再无公开讨论。本周三，这项技术以DiffusionGemma的身份重新浮出水面，成为一个实验性的26B专家混合模型，用扩散方式生成文本的速度，是现有Gemma模型的4倍。

扩散一直是图像生成领域的默认路径，比如Stable Diffusion。与传统语言模型逐个词输出的方式不同，DiffusionGemma或Inception的Mercury 2这类模型采用并行生成。一开始，生成的文本块看上去毫无逻辑、几乎随机。但随着每一步迭代，模型会不断优化这些文字，消除“噪声”，直到得到你想要的答案。如果你见过扩散图像模型实时生成画面的过程，那么文本的扩散生成本质上就是同一套逻辑，只不过对象换成了自然语言。

在每一步中，模型会同时对256个token进行去噪，这让它比传统自回归大语言模型快得多。它的核心机制是不断对文本块做整体迭代，直到结果可读。所有token之间互相建立注意力，谷歌指出，这种特性尤其适合行内编辑、代码填充、氨基酸序列处理以及数学图结构等场景。

关于性能，谷歌给出的数据是：单块Nvidia H100上，DiffusionGemma每秒可产出超过1000个token。借助专家混合架构，推理时并不需要把全部260亿参数都驻留在内存中，只需激活38亿参数即可工作。这意味着，一张18GB显存的GPU就能轻松运行这个模型。

不过，速度优势并非毫无代价。在所有基准测试中，DiffusionGemma的表现均不如Gemma 4 26B A4B，这一点谷歌也公开承认。没有技术原理上的障碍阻止扩散模型达到与传统大语言模型同等的质量水平，只是本次发布的焦点被明确放在了速度上。谷歌在公告中建议：如果应用场景对输出质量要求极高，还是应当部署标准的Gemma 4。

目前，模型已上架HuggingFace，并通过Unsloth等方案提供了量化版本，方便用户借助llama.cpp以及即将支持的类似本地推理工具在本地运行。谷歌还与英伟达合作，针对英伟达硬件进行了专门优化，涵盖GeForce RTX 5090、4090这类高端消费级GPU，以及DGX Spark和DGX Station等专业设备。同时，英伟达NIM推理微服务也已对该模型提供支持。