Google甩出31B参数模型，性能追平744B巨头却只要1/2|Google|参数模型|新论文|知名企业|语音识别|调用|谷歌

400亿次下载、10万个衍生版本——这是Gemma 3交出的成绩单。但Google DeepMind显然没打算躺在这个数字上睡觉。4月1日，Gemma 4正式发布，四款型号齐发，从桌面级31B密集模型到能塞进手机的E2B边缘版本，全部换上Apache 2.0商用许可证。开源社区等了整整一年的"许可+能力"双升级，这次一次性到账。

最扎眼的是那张Pareto曲线图：31B参数的Gemma 4-31B，在Chatbot Arena（聊天机器人竞技场）的公开榜单上与Kimi K2.5（744B-A40B）、Z.ai GLM-5（1T-A32B）并列第三。后两者分别是7440亿和1万亿参数，Gemma 4只用了它们1/24和1/32的体量。这不是"小模型能用了"，这是"小模型把大模型的桌子掀了"。

DeepMind在发布帖里用了个挺微妙的词："reasoning + agentic workflows"（推理与智能体工作流）。翻译成人话：这模型不是给你聊天解闷的，是设计用来调用工具、执行多步骤任务的。配合原生函数调用和结构化JSON输出，Gemma 4的定位从"开源替代品"变成了"生产环境的基础设施"。

从"能用"到"敢商用"：许可证的隐形门槛

开源模型的许可证一直是门玄学。Gemma前几代的许可条款被开发者吐槽过不少次——商业使用有限制，修改后分发要额外审批。这次直接切到Apache 2.0，意味着你可以随便改、随便卖、不用交保护费。Jeff Dean在帖子里特意强调了这个变化，配图是Gemma 3的400M下载量和100K变体数据，潜台词很明显：许可松了，生态才能肥。

有个细节容易被忽略：Gemma 4的"多模态"不是事后打补丁，是原生设计。文本、图像、视频、音频——四种输入类型在模型架构里就有对应通道。E4B和E2B两个边缘型号甚至把语音识别和理解做成了内置功能，不是调用外部API凑出来的。这对端侧部署意味着什么？你的手机不需要联网也能看懂视频、听懂指令、输出结构化结果。

长上下文是另一个硬指标。31B和26B-A4B支持256K token，大概是《了不起的盖茨比》全文长度的两倍。处理长文档、代码库、多轮对话时，模型不会"失忆"。Artificial Analysis的测试报告显示，Gemma 4-31B（Reasoning版本）在GPQA Diamond科学推理基准上拿到85.7%，输出效率约120万token——同等质量下，算力账单比别人短一截。

26B-MoE的"障眼法"：4B激活参数怎么打31B的仗

Gemma 4-26B-A4B是个挺有意思的存在。总参数260亿，但每次前向传播只激活40亿（A4B=4 Billion active）。MoE（混合专家模型，Mixture-of-Experts）架构的本质是"按需调用"：输入来了，路由器决定激活哪几个专家网络，剩下的睡觉。这种设计在推理阶段极省显存，训练阶段却能蹭到更大参数量的知识容量。

Arena榜单上，这个"26B名义、4B实际"的型号排在公开模型第六位。有人算过账：如果用消费级显卡本地部署，31B密集版可能需要量化压缩才能跑得动，26B-A4B反而能原精度运行，实际效果未必输。DeepMind这次的产品矩阵明显是算过经济账的——要极限性能选31B，要部署友好选26B-A4B，要塞进手机选E4B/E2B。

边缘型号的规格公布得相对模糊，但"原生音频输入"这个描述值得细品。现在的语音交互大多是"语音识别→文本模型→语音合成"三段式，延迟和错误率层层叠加。Gemma 4的E系列直接把音频送进模型，端到端处理，理论上能把响应 latency 砍掉一半以上。苹果和Google的合作传闻由来已久，新Siri的底层模型会不会就是E4B的定制版？双方都没确认，但技术特征对得上号。

Benchmark狂欢背后的冷思考

发布当天，Twitter上的 benchmark 截图满天飞。Gemma 4-31B在Arena冲到过公开模型第一，后来被Kimi和GLM反超，稳定在第三；GPQA Diamond的85.7%超过GPT-4早期版本；AIME数学竞赛基准也有显著提升。但几个社区帖子提醒得在理：Arena排名受投票人群偏好影响，GPQA Diamond的题库范围有限，"20倍效率"的对比往往选的是最吃亏的大模型对手。

更实际的考验是生态落地。Hugging Face上Gemma 4的模型卡发布几小时内，UnslothAI就出了本地部署教程，vLLM、Ollama、llama.cpp 等推理框架陆续跟进。但"能跑起来"和"跑得好"是两件事——256K长上下文需要特定的注意力优化，多模态输入的预处理 pipeline 还没标准化，函数调用的工具定义格式各家略有不同。开源模型的优势是选择多，代价也是选择多，你得自己拼乐高。

DeepMind这次放出的技术细节比往常慷慨。训练数据配比、多模态融合策略、MoE路由机制都有论文级别的披露，虽然完整技术报告还没发布。对比之下，Allen Institute的GPT-OSS项目陷入人员动荡，美国开源模型的"国家队"叙事正在褪色。Gemma 4的发布时间选得微妙：竞争对手自顾不暇，Google顺势抢下"开源领军者"的心智锚点。

参数战争的新算法：不是变小，是变聪明

31B打744B的戏剧性对比，容易让人误解为"小模型时代来了"。更准确的说法是"效率时代来了"。Gemma 4的架构选择——密集版用深度换宽度，MoE版用稀疏激活换容量，边缘版用专用硬件协同设计——本质上都是在重新分配算力预算。同样的FLOPs，花在更好的数据筛选、更长的训练时间、更精细的对齐调优上，比无脑堆参数回报更高。

这个逻辑对行业的影响比单款模型更大。如果31B能在多数任务上替代700B+，云厂商的GPU集群规划要重写，创业者的API账单要重算，端侧AI的想象力要重估。DeepMind在发布材料里反复提"local/edge deployment"（本地/边缘部署），不是客气话——E2B的体积和功耗指标，瞄准的就是手机NPU和物联网芯片的算力天花板。

一个尚未回答的问题是：Gemma 4的"Reasoning"版本和标准版差距有多大？DeepMind只公布了Reasoning版的部分 benchmark，标准版的性能曲线还不完整。另一个悬念是视频理解的具体表现——"原生处理视频"听着美好，但帧率、分辨率、时长限制都没披露。这些空白等着社区用实测填补。

发布48小时后，Gemma 4-31B在Hugging Face的下载量突破15万次。有人在讨论帖里问：如果苹果真的把E4B塞进iOS 19的Siri，Google会不会反而被自己的开源模型"背刺"了Pixel手机的差异化优势？这个问题没有标准答案，但开源协议的Apache 2.0条款已经写死了：随便用，不追责。Google赌的是生态规模比单点控制更有价值——这个赌局的结果，可能比任何 benchmark 都更值得追踪。