4月2日,Google把Gemma 4扔进了开源战场。4个型号,从手机能跑的2B到H100才能喂饱的31B,全线Apache 2.0协议——这是Gemma家族第一次彻底放开商用,不用写邮件求授权。
开发者用钱包投票的速度说明问题:Gemma系列累计下载已超4亿次,衍生模型超过10万个。Gemma 4发布4天,这个数据还在涨。
4张牌,覆盖从树莓派到数据中心的全部场景
Gemma 4的打法像手机芯片的"中杯大杯超大杯",但划分逻辑是硬件边界而非单纯性能。
E2B(Effective 2B)和E4B(Effective 4B)瞄准边缘设备。两者都能在智能手机、树莓派、Jetson Orin Nano上运行,支持128K上下文,能同时吃进去图像、视频、音频。E2B主打续航,E4B用约3倍延迟换 noticeably 更强的推理质量——Google官方数据是比前代快4倍,省电60%。
一个容易忽略的细节:E2B和E4B原生支持音频输入,26B和31B反而不支持。如果你的应用需要语音识别,只能选这两款"小"模型。
26B MoE(Mixture of Experts,混合专家模型)是参数效率的极端案例。总参数量26B,推理时只激活3.8B。256K上下文窗口,Arena AI文本排行榜第6。量化版能塞进消费级显卡。
31B Dense是旗舰,全密集架构,同样256K上下文,Arena AI排名第3。未量化版需要单张80GB H100,量化后可降级到消费硬件。Google明说这是"obvious fine-tuning base"—— obvious 到不需要解释。
Benchmarks:20倍参数差距怎么被抹掉的
Google声称Gemma 4能打20倍于己的模型。第三方机构Artificial Analysis的数据让这句话没那么像广告。
GPQA Diamond(科学推理基准)上,31B得分85.7%,开源自研模式排第二,仅次于Qwen3.5 27B的85.8%。差距0.1%,但31B的推理成本更低:同等评估生成约120万输出token,Qwen3.5 27B要吃掉150万。
26B MoE的79.2%更刺眼——它超过了OpenAI的gpt-oss-120B(76.2%)。94B参数对3.8B激活参数,这个对比本身就是对MoE架构的辩护。
Agent能力可能是这次代际跳跃最狠的部分。τ2-bench(Retail)测试多步骤工具调用,31B得分86.4%,26B得分85.5%。Gemma 3 27B的同项成绩:6.6%。
不是写错了小数点。从6.6%到85%以上,这个跨度说明Google在工具使用范式上动了根本性的手术。
数学和代码复制同一剧本。AIME 2026上,31B和26B分别拿到89.2%和88.3%,Gemma 3 27B是20.8%。LiveCodeBench v6,31B 80.0%,26B 77.1%,前代29.1%。
边缘模型相对克制。E4B的LiveCodeBench 52.0%、GPQA Diamond 58.6%,放在手机芯片的功耗墙里,算是能用的基准线。
Apache 2.0:Google终于想通了什么
Gemma前三代的许可协议是个拼图:研究用免费,商用要申请,条款随版本变。开发者得养个法务专门盯Google的更新日志。
Gemma 4全线Apache 2.0,意味着修改、分发、闭源衍生、商用,全不需要打招呼。这个转变的时间点值得玩味——Llama 3早就Apache了,Qwen、Mistral也在跟进,Google的"开放"终于从营销话术变成法律文件。
一个可能的动机:Gemma的4亿次下载和10万+变体已经证明,生态厚度本身就是护城河。与其用协议卡人,不如用协议拉人。
另一个观察:E2B/E4B的音频原生支持,26B/31B的缺席,暗示Google内部可能有另一条产品线在负责语音大模型。Gemma 4的边界画得很清楚,不追求"全能",追求"在指定场景下做到最好"。
这种产品切割,产品经理应该很熟悉——资源有限时,不做全能选手,做特定赛道的冠军。
开发者现在面对的选择题:如果你的应用要跑在手机上且需要听声音,E2B/E4B是唯一解;如果追求开源排行榜第三的推理质量且有H100,31B是fine-tuning的起点;如果在消费级显卡上想蹭MoE的效率红利,26B的参数激活比足够性感。
4亿次下载之后,Gemma 4的赌注是:把选择成本降到零,让开发者用脚投票时,每一步都踩在Google铺好的砖上。
Apache 2.0的协议文本里,没有"感谢使用"的段落。但10万个衍生模型的作者,现在可以合法地把Gemma 4塞进自己的产品,而不必在About页面里写一行小字致谢Google——这究竟是解放,还是另一种形式的绑定?
热门跟贴