4月2日,Google干了件表面看很离谱的事。他们把和Gemini 3同架构的模型直接开源,不收钱,Apache 2.0商用授权随便用——你可以拿它做产品、收费、甚至和Google抢生意。
这不像Google的风格。但看懂本地硬件成本的变化和开发者生态的博弈,Gemma 4的策略就清晰了。
传统云模型的逻辑是:数据离开设备,跑到远程数据中心,在昂贵的服务器集群上计算,再返回结果。每个输入输出token都要计费,用户量一涨,API账单就疯长。
Gemma 4反着来。模型权重直接下载到本地,存在硬盘里,执行完全靠本地CPU、GPU或NPU。不需要联网,没有API调用,也不依赖外部基础设施。
本地跑开源模型不是新概念,但新的是:现在普通消费级硬件能跑的质量,已经和巨型云基础设施几乎没差距了。
Google给Gemma 4做了多个配置,小模型的工程选择尤其能看出本地执行效率的进化。
E2B/E4B结构信号层
标准语言模型是token垂直穿过一层层网络,数据路径不变。Google在紧凑版E2B里改了这套逻辑。
不是对称处理每层,而是给每层独立注入小型上下文信号。这样单层就能精细感知token关系,不用走又深又耗电的网络路径。
结果是:多语言、多模态架构,文本图像音频原生支持,内存占用不到1.5GB——比很多普通手机App还小。
26B混合专家模型的动态路由
传统稠密模型每处理一个词都要激活全部参数,硬件门槛极高。Gemma 4的26B版本用混合专家(MoE)架构,每次只激活部分专家网络。
Google没公布具体路由策略,但从内存配置看,激活参数占比应该控制在合理范围,让消费级显卡能跑得动。
这背后是笔经济账。当本地推理成本逼近零,云API的定价权就被瓦解了。Google免费放出Gemma 4,赌的是生态锁定——你用惯了它的架构,它的工具链,它的优化方案,云端的Gemini就成了自然升级路径。
免费是最贵的。只是这次,买单的方式变了。
热门跟贴