比国产AI还卷：谷歌Gemma 4以小博大，端侧模型迎来分水岭|agent|工作流|模态|电子表格|知名企业|谷歌gemma4

发布才几个小时，Gemma 4 就已经把开发者社区的情绪拉满了。

北京时间 4 月 3 日凌晨，Google 推出了新一代开源模型 Gemma 4，包括 E2B、E4B、26B（MoE）、31B 「一门四杰」，其中 E2B、E4B 两个较小模型直接可以在手机、树莓派等设备上部署运行，26B、31B 两个较大模型也只需要一张消费级显卡就能跑起来。

不同于闭源的 Gemini 大模型走的是「力大砖飞」，Google 在 Gemma 开源模型的思路上一直是「小而精」。

但 Gemma 4 给人的第一印象还是有点不按剧本来。参数规模没有膨胀，结构也谈不上颠覆，可是在一系列 benchmark 里，Gemma 4 却能逼近甚至超越更大一档规模的模型。26B、31B 版本在 AI 竞技场（人工对话打分）已经比肩一众国产开源模型，甚至超越了 685B 的 DeepSeek V3.2 以及 397B 的 Qwen 3.5。

比国产模型还卷了。

过去在这个战场上，Qwen 几乎就是「小而精」模型的代名词，但 Gemma 4 这次的进步确实太大了。不只是在 AI 竞技场这种偏「AI 聊天」的真实场景测试中有惊艳的表现，Gemma 4 还是少有从一开始就面向本地 Agent 工作流设计的模型，也支持多模态。

这么小规模的模型下，Gemma 4 却做到了超预期的性能和能力，也难怪 AI 研究工程师 Sebastian Raschka 在 X 上说，「Gemma 4 是一个巨大的跨越。」

但很多人忽略的一个关键，还在于开源协议的切换。这次 Google 终于想通了，放弃了自家糟糕透顶的 Gemma 开源协议，Gemma 4 全系换上了主流的 Apache 2.0 协议，从个人到企业都可以放心商用、再分发。

开源 AI 模型的格局，又要再变一次？

免费、无 API，大模型不大但好用

先从 26B 和 31B 这两个模型说起。

按照过去两年的直觉，这个参数规模几乎不在第一梯队。开源世界里，动辄就是百亿、千亿，甚至像 DeepSeek V3.2 这种 600B+ 级别的模型，才有资格谈「对标闭源」。但 Gemma 4 的这两个模型，上来就把这套逻辑打乱了。

26B 和 31B 的表现，不只是「能打」，而是已经开始稳定贴近甚至超过更大体量的模型。Google DeepMind 创始人兼 CEO Demis Hassabis就说得很直白，Gemma 4 就是「同级别（参数规模）最好的开源模型」。

需要一提的是，Gemma 4（26B）采用的是 MoE 架构，总参数 26B，但实际激活规模要小得多。这种设计带来的直接结果不是纸面参数的好看，而是一个更现实的变化：在很多任务里，它用小模型的成本，打出了接近更大模型的效果。

图片来源：英伟达

事实上，Gemma 4 的优势，不在绝对能力，而在「智能密度」，或者说是每个参数的效率最大化。

26B 和 31B 就是最直观的例子，在实际测试里就能感受到这种密度和效率。在一些开发者的早期测试中，它反而比更大的模型更「好用」，因为它不只是能做，还能稳定、快速地做。

简言之，能够承担更复杂的任务和更好的表现。

Gemma 4 推出后，X 上就有独立开发者就在 RTX 5090 上本地部署了 31B，不仅能快速完成代码生成、多模态理解任务，整体表现已经相当可用。至于 Gemma 4（26B），在 Mac mini（M4 16GB）上就能很好地部署运行。

更重要的是，Hacker New 社区还有人指出，测试将 Gemma 4 接进 code-agent harness（30K+ 上下文）的表现很好，明显快于 Qwen 同级模型。

免费、无需 API。Gemma 4 的 26B 和 31B，并不是最强的开源模型，但已经足够强，同时又足够「轻」，甚至可以真正在本地做事，用极低的使用成本在本地处理一系列低复杂度的 Agent 任务。

这也是为什么很多开发者在讨论 Gemma 4 时，很少再纠结它和 GPT、Claude 的差距，而是开始讨论另一件事，这样体量的模型，能不能成为本地 Agent 的核心。因为一旦这个问题的答案变成「可以」，那整个开源模型的价值，就不再只是替代 API，而是开始接管一部分真实的工作流。

接下来一段时间，相信这也是 Gemma 4 的重点。

联手高通、联发科，小模型引发本地 Agent 浪潮？

但这一代 Gemma 4，不只看 26B、31B，把视角往下拉到 E2B、E4B，会发现 Google 还想更进一步把端侧 AI 塞进手机等边缘设备。

先说一点。这两个模型不是可以在端侧跑，而是从一开始就是为端侧设计的。Google 在官方描述里就强调，E2B 和 E4B 的目标是「重新定义端侧实用性」，优先考虑的是低延迟、多模态和系统级集成，而不是参数规模。这句话背后其实很明确，它们不是缩小版的大模型，而是另一类产品。

这类产品最关键的一点，是把「本地 AI」从概念变成了一个可以落地的工程路径。E2B 在量化之后可以压到 1.5GB 以内，在树莓派 5 上也能跑出可用的推理速度，prefill 可以到 100 tokens/s 以上。意味着一个不依赖云、不走 API 的 AI 系统，开始可以在极其有限的硬件上运行。