谷歌把260亿参数压成4B用，本地AI终于不用看云端脸色了|云端|内存|手机|液态玻璃|知名企业|调用|谷歌

凌晨两点刷到这条推送时，我正躺在床上给手机充电——而谷歌说，以后这种场景下，我的手机可能根本不需要联网就能跑一个40亿参数的大模型。

Gemma 4 来了。谷歌给它定了调："迄今为止最智能的开放模型系列"。四个规格，从 Effective 2B 到 31B 稠密模型，全部 Apache 2.0 开源，商用随便改。

最耐人寻味的是命名里的那个"E"。E2B、E4B，E 代表 Effective（有效参数）。打个比方：这就像一家餐厅宣传"人均消费50元"，但进店才发现，后厨其实囤了够500人吃的食材，只是每桌只给你上50元的量。PLE 技术让每层解码器给每个 token 配独立小嵌入，内存占用比表面数字高，但推理时只激活标称参数。

26B MoE 更像个精打细算的会计：260亿参数全住进显存，干活时只叫醒38亿。速度保住了，知识储备也没丢。谷歌 DeepMind 的人管这叫"单位参数智能"的压榨——31B 版本目前在开源榜单排第三，对手是参数大它20倍的模型。

多模态这次没掉队。E2B、E4B 原生支持视频音频输入，所有型号都能看图说话，上下文窗口拉到128K-256K。系统提示词内置了，函数调用原生支持，140多种语言。前几代 Gemma 做 Agent 还得开发者自己搭桥，现在出厂就是 Agent Ready。

有网友测完说 Qwen3.5-27B 略胜一筹，但另一条评论戳中了痛点："四种尺寸全为 Agent 准备，全都能本地跑。我们喊了多久'别每次思考都传云端'，他们终于听见了，而且给得比预期多。"

谷歌列了张内存需求表，但藏着脚注：官方数字只算静态权重，框架开销、KV Cache、微调时的批量大小，都是额外账单。26B MoE 看着像4B的用量，实际显存胃口接近稠密26B——毕竟260亿参数得先全部请进内存，才能决定叫醒哪38亿。

部署渠道铺得很满：Hugging Face、Ollama、llama.cpp、手机上的 AICore Preview……从 Jetson Nano 到 Blackwell GPU，从 AMD ROCm 到谷歌 TPU。Constellation Research 的分析师说，这适合"对数字主权有较高要求"的场景——翻译过来就是：数据不想出境的人，终于有体面的选择了。

我在 Hugging Face 的模型卡页面停了一会儿。底下有条刚发的讨论："测试了 E2B 在 Pixel 上的延迟，基本无感。"发帖时间是凌晨三点十四分，和我这边差不多。