谷歌把26B模型压成4B用，本地AI终于不用看云端脸色

野生运营

2026-04-04 08:21 ·北京

凌晨两点，谷歌把Gemma 4扔了出来，号称"史上最聪明的开放模型"。

这话听着像例行公关，但看完参数表你会发现，他们这次玩的是"缩骨功"——四种规格里，最小的E2B和E4B专门给手机、树莓派这类"弱鸡"设备准备的，推理时只激活20亿和40亿参数，延迟压到接近零。翻译成人话：你的旧手机终于能离线跑正经AI了，不用每次问个问题都先给云端磕一个。

真正有意思的是26B那个MoE模型。谷歌说它在推理任务里只激活38亿参数，却能保持大模型的知识储备。这就像一个号称26人的专家团队，实际干活时只叫醒4个人，但活儿干得比真·4人团队漂亮。代价是显存，26B参数得全塞进内存候着，所以别想拿它当4B用。

31B版本目前在开源榜单排第三。谷歌还补了一刀：某些测试里，它比参数大20倍的对手还能打。不过网友很快翻出Qwen3.5-27B的跑分，说其实略胜一筹——开源社区的打脸速度永远比发布会快。

这次四个型号全带"思考"模式、全支持函数调用、全给140多种语言。最被开发者惦记的是原生system role支持——以前调Gemma得像哄小孩，现在终于能正经写系统提示词了。

一位网友的评论被顶得很高："我们一直在喊，要那种思考不用传回云端的模型。他们终于听进去了，而且给的比预期多。"

Apache 2.0许可证，商用随便改。谷歌的算盘很清楚：你们不是担心数据主权吗？不是嫌云端延迟高吗？拿走，全在本地跑。分析师说这叫"主导本地AI产业"，说白了就是把开发者圈进自己的硬件生态——从Jetson Nano到Blackwell，从高通到联发科，全给你适配好了。

不过官方给的内存数字只算静态权重，实际跑起来，框架开销、KV Cache、上下文窗口都是隐形刺客。想微调的话，显存需求还得再往上蹿一截。

模型已上架Hugging Face、Kaggle、Ollama。Android开发者可以去AICore里摸原型了。

那位网友的后半句其实更值得记住："现在他们终于听进去了"——开源社区喊了三年的本地优先，谷歌这次把回应写进了产品定义里。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴