Google把压箱底AI免费送，图什么？4个关键配置揭秘

薛定谔的BUG

2026-05-18 02:19 ·北京

4月2日，Google干了件表面看很离谱的事。他们把和Gemini 3同架构的模型直接开源，不收钱，Apache 2.0商用授权随便用——你可以拿它做产品、收费、甚至和Google抢生意。

这不像Google的风格。但看懂本地硬件成本的变化和开发者生态的博弈，Gemma 4的策略就清晰了。

传统云模型的逻辑是：数据离开设备，跑到远程数据中心，在昂贵的服务器集群上计算，再返回结果。每个输入输出token都要计费，用户量一涨，API账单就疯长。

Gemma 4反着来。模型权重直接下载到本地，存在硬盘里，执行完全靠本地CPU、GPU或NPU。不需要联网，没有API调用，也不依赖外部基础设施。

本地跑开源模型不是新概念，但新的是：现在普通消费级硬件能跑的质量，已经和巨型云基础设施几乎没差距了。

Google给Gemma 4做了多个配置，小模型的工程选择尤其能看出本地执行效率的进化。

E2B/E4B结构信号层

标准语言模型是token垂直穿过一层层网络，数据路径不变。Google在紧凑版E2B里改了这套逻辑。

不是对称处理每层，而是给每层独立注入小型上下文信号。这样单层就能精细感知token关系，不用走又深又耗电的网络路径。

结果是：多语言、多模态架构，文本图像音频原生支持，内存占用不到1.5GB——比很多普通手机App还小。

26B混合专家模型的动态路由

传统稠密模型每处理一个词都要激活全部参数，硬件门槛极高。Gemma 4的26B版本用混合专家（MoE）架构，每次只激活部分专家网络。

Google没公布具体路由策略，但从内存配置看，激活参数占比应该控制在合理范围，让消费级显卡能跑得动。

这背后是笔经济账。当本地推理成本逼近零，云API的定价权就被瓦解了。Google免费放出Gemma 4，赌的是生态锁定——你用惯了它的架构，它的工具链，它的优化方案，云端的Gemini就成了自然升级路径。

免费是最贵的。只是这次，买单的方式变了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴