凌晨两点,谷歌把Gemma 4扔了出来,号称"史上最聪明的开放模型"。
这话听着像例行公关,但看完参数表你会发现,他们这次玩的是"缩骨功"——四种规格里,最小的E2B和E4B专门给手机、树莓派这类"弱鸡"设备准备的,推理时只激活20亿和40亿参数,延迟压到接近零。翻译成人话:你的旧手机终于能离线跑正经AI了,不用每次问个问题都先给云端磕一个。
真正有意思的是26B那个MoE模型。谷歌说它在推理任务里只激活38亿参数,却能保持大模型的知识储备。这就像一个号称26人的专家团队,实际干活时只叫醒4个人,但活儿干得比真·4人团队漂亮。代价是显存,26B参数得全塞进内存候着,所以别想拿它当4B用。
31B版本目前在开源榜单排第三。谷歌还补了一刀:某些测试里,它比参数大20倍的对手还能打。不过网友很快翻出Qwen3.5-27B的跑分,说其实略胜一筹——开源社区的打脸速度永远比发布会快。
这次四个型号全带"思考"模式、全支持函数调用、全给140多种语言。最被开发者惦记的是原生system role支持——以前调Gemma得像哄小孩,现在终于能正经写系统提示词了。
一位网友的评论被顶得很高:"我们一直在喊,要那种思考不用传回云端的模型。他们终于听进去了,而且给的比预期多。"
Apache 2.0许可证,商用随便改。谷歌的算盘很清楚:你们不是担心数据主权吗?不是嫌云端延迟高吗?拿走,全在本地跑。分析师说这叫"主导本地AI产业",说白了就是把开发者圈进自己的硬件生态——从Jetson Nano到Blackwell,从高通到联发科,全给你适配好了。
不过官方给的内存数字只算静态权重,实际跑起来,框架开销、KV Cache、上下文窗口都是隐形刺客。想微调的话,显存需求还得再往上蹿一截。
模型已上架Hugging Face、Kaggle、Ollama。Android开发者可以去AICore里摸原型了。
那位网友的后半句其实更值得记住:"现在他们终于听进去了"——开源社区喊了三年的本地优先,谷歌这次把回应写进了产品定义里。
热门跟贴