400亿次下载、10万个衍生版本——这是Gemma 3交出的成绩单。但Google DeepMind显然没打算躺在这个数字上睡觉。4月1日,Gemma 4正式发布,四款型号齐发,从桌面级31B密集模型到能塞进手机的E2B边缘版本,全部换上Apache 2.0商用许可证。开源社区等了整整一年的"许可+能力"双升级,这次一次性到账。
最扎眼的是那张Pareto曲线图:31B参数的Gemma 4-31B,在Chatbot Arena(聊天机器人竞技场)的公开榜单上与Kimi K2.5(744B-A40B)、Z.ai GLM-5(1T-A32B)并列第三。后两者分别是7440亿和1万亿参数,Gemma 4只用了它们1/24和1/32的体量。这不是"小模型能用了",这是"小模型把大模型的桌子掀了"。
DeepMind在发布帖里用了个挺微妙的词:"reasoning + agentic workflows"(推理与智能体工作流)。翻译成人话:这模型不是给你聊天解闷的,是设计用来调用工具、执行多步骤任务的。配合原生函数调用和结构化JSON输出,Gemma 4的定位从"开源替代品"变成了"生产环境的基础设施"。
从"能用"到"敢商用":许可证的隐形门槛
开源模型的许可证一直是门玄学。Gemma前几代的许可条款被开发者吐槽过不少次——商业使用有限制,修改后分发要额外审批。这次直接切到Apache 2.0,意味着你可以随便改、随便卖、不用交保护费。Jeff Dean在帖子里特意强调了这个变化,配图是Gemma 3的400M下载量和100K变体数据,潜台词很明显:许可松了,生态才能肥。
有个细节容易被忽略:Gemma 4的"多模态"不是事后打补丁,是原生设计。文本、图像、视频、音频——四种输入类型在模型架构里就有对应通道。E4B和E2B两个边缘型号甚至把语音识别和理解做成了内置功能,不是调用外部API凑出来的。这对端侧部署意味着什么?你的手机不需要联网也能看懂视频、听懂指令、输出结构化结果。
长上下文是另一个硬指标。31B和26B-A4B支持256K token,大概是《了不起的盖茨比》全文长度的两倍。处理长文档、代码库、多轮对话时,模型不会"失忆"。Artificial Analysis的测试报告显示,Gemma 4-31B(Reasoning版本)在GPQA Diamond科学推理基准上拿到85.7%,输出效率约120万token——同等质量下,算力账单比别人短一截。
26B-MoE的"障眼法":4B激活参数怎么打31B的仗
Gemma 4-26B-A4B是个挺有意思的存在。总参数260亿,但每次前向传播只激活40亿(A4B=4 Billion active)。MoE(混合专家模型,Mixture-of-Experts)架构的本质是"按需调用":输入来了,路由器决定激活哪几个专家网络,剩下的睡觉。这种设计在推理阶段极省显存,训练阶段却能蹭到更大参数量的知识容量。
Arena榜单上,这个"26B名义、4B实际"的型号排在公开模型第六位。有人算过账:如果用消费级显卡本地部署,31B密集版可能需要量化压缩才能跑得动,26B-A4B反而能原精度运行,实际效果未必输。DeepMind这次的产品矩阵明显是算过经济账的——要极限性能选31B,要部署友好选26B-A4B,要塞进手机选E4B/E2B。
边缘型号的规格公布得相对模糊,但"原生音频输入"这个描述值得细品。现在的语音交互大多是"语音识别→文本模型→语音合成"三段式,延迟和错误率层层叠加。Gemma 4的E系列直接把音频送进模型,端到端处理,理论上能把响应 latency 砍掉一半以上。苹果和Google的合作传闻由来已久,新Siri的底层模型会不会就是E4B的定制版?双方都没确认,但技术特征对得上号。
Benchmark狂欢背后的冷思考
发布当天,Twitter上的 benchmark 截图满天飞。Gemma 4-31B在Arena冲到过公开模型第一,后来被Kimi和GLM反超,稳定在第三;GPQA Diamond的85.7%超过GPT-4早期版本;AIME数学竞赛基准也有显著提升。但几个社区帖子提醒得在理:Arena排名受投票人群偏好影响,GPQA Diamond的题库范围有限,"20倍效率"的对比往往选的是最吃亏的大模型对手。
更实际的考验是生态落地。Hugging Face上Gemma 4的模型卡发布几小时内,UnslothAI就出了本地部署教程,vLLM、Ollama、llama.cpp 等推理框架陆续跟进。但"能跑起来"和"跑得好"是两件事——256K长上下文需要特定的注意力优化,多模态输入的预处理 pipeline 还没标准化,函数调用的工具定义格式各家略有不同。开源模型的优势是选择多,代价也是选择多,你得自己拼乐高。
DeepMind这次放出的技术细节比往常慷慨。训练数据配比、多模态融合策略、MoE路由机制都有论文级别的披露,虽然完整技术报告还没发布。对比之下,Allen Institute的GPT-OSS项目陷入人员动荡,美国开源模型的"国家队"叙事正在褪色。Gemma 4的发布时间选得微妙:竞争对手自顾不暇,Google顺势抢下"开源领军者"的心智锚点。
参数战争的新算法:不是变小,是变聪明
31B打744B的戏剧性对比,容易让人误解为"小模型时代来了"。更准确的说法是"效率时代来了"。Gemma 4的架构选择——密集版用深度换宽度,MoE版用稀疏激活换容量,边缘版用专用硬件协同设计——本质上都是在重新分配算力预算。同样的FLOPs,花在更好的数据筛选、更长的训练时间、更精细的对齐调优上,比无脑堆参数回报更高。
这个逻辑对行业的影响比单款模型更大。如果31B能在多数任务上替代700B+,云厂商的GPU集群规划要重写,创业者的API账单要重算,端侧AI的想象力要重估。DeepMind在发布材料里反复提"local/edge deployment"(本地/边缘部署),不是客气话——E2B的体积和功耗指标,瞄准的就是手机NPU和物联网芯片的算力天花板。
一个尚未回答的问题是:Gemma 4的"Reasoning"版本和标准版差距有多大?DeepMind只公布了Reasoning版的部分 benchmark,标准版的性能曲线还不完整。另一个悬念是视频理解的具体表现——"原生处理视频"听着美好,但帧率、分辨率、时长限制都没披露。这些空白等着社区用实测填补。
发布48小时后,Gemma 4-31B在Hugging Face的下载量突破15万次。有人在讨论帖里问:如果苹果真的把E4B塞进iOS 19的Siri,Google会不会反而被自己的开源模型"背刺"了Pixel手机的差异化优势?这个问题没有标准答案,但开源协议的Apache 2.0条款已经写死了:随便用,不追责。Google赌的是生态规模比单点控制更有价值——这个赌局的结果,可能比任何 benchmark 都更值得追踪。
热门跟贴