打开网易新闻 查看精彩图片

凌晨两点刷到这条推送时,我正躺在床上给手机充电——而谷歌说,以后这种场景下,我的手机可能根本不需要联网就能跑一个40亿参数的大模型。

Gemma 4 来了。谷歌给它定了调:"迄今为止最智能的开放模型系列"。四个规格,从 Effective 2B 到 31B 稠密模型,全部 Apache 2.0 开源,商用随便改。

最耐人寻味的是命名里的那个"E"。E2B、E4B,E 代表 Effective(有效参数)。打个比方:这就像一家餐厅宣传"人均消费50元",但进店才发现,后厨其实囤了够500人吃的食材,只是每桌只给你上50元的量。PLE 技术让每层解码器给每个 token 配独立小嵌入,内存占用比表面数字高,但推理时只激活标称参数。

打开网易新闻 查看精彩图片

26B MoE 更像个精打细算的会计:260亿参数全住进显存,干活时只叫醒38亿。速度保住了,知识储备也没丢。谷歌 DeepMind 的人管这叫"单位参数智能"的压榨——31B 版本目前在开源榜单排第三,对手是参数大它20倍的模型。

多模态这次没掉队。E2B、E4B 原生支持视频音频输入,所有型号都能看图说话,上下文窗口拉到128K-256K。系统提示词内置了,函数调用原生支持,140多种语言。前几代 Gemma 做 Agent 还得开发者自己搭桥,现在出厂就是 Agent Ready。

有网友测完说 Qwen3.5-27B 略胜一筹,但另一条评论戳中了痛点:"四种尺寸全为 Agent 准备,全都能本地跑。我们喊了多久'别每次思考都传云端',他们终于听见了,而且给得比预期多。"

打开网易新闻 查看精彩图片

谷歌列了张内存需求表,但藏着脚注:官方数字只算静态权重,框架开销、KV Cache、微调时的批量大小,都是额外账单。26B MoE 看着像4B的用量,实际显存胃口接近稠密26B——毕竟260亿参数得先全部请进内存,才能决定叫醒哪38亿。

部署渠道铺得很满:Hugging Face、Ollama、llama.cpp、手机上的 AICore Preview……从 Jetson Nano 到 Blackwell GPU,从 AMD ROCm 到谷歌 TPU。Constellation Research 的分析师说,这适合"对数字主权有较高要求"的场景——翻译过来就是:数据不想出境的人,终于有体面的选择了。

我在 Hugging Face 的模型卡页面停了一会儿。底下有条刚发的讨论:"测试了 E2B 在 Pixel 上的延迟,基本无感。"发帖时间是凌晨三点十四分,和我这边差不多。