你有多久没认真对待过一个"开源模型发布"了?

我见过太多"颠覆性"模型,最后都变成跑分好看、实战拉胯。所以Google发布Gemma 4时,我照例等了一周,等热度过去,自己动手试。

打开网易新闻 查看精彩图片

结果完全出乎意料。

打开网易新闻 查看精彩图片

以前"本地跑AI"只有两个选项:要么玩具模型连完整对话都撑不住,要么显卡比二手车还贵。Gemma 4把这个死结彻底解开——用了几天之后,我认为这是今年最重要的开源模型发布之一。

下面是我实测的发现,以及不同配置该选哪个版本。

三个版本,选错的人最多

Gemma 4是Google最新的开源模型家族。"开源"意味着你下载权重,在自己的硬件上跑,不碰任何第三方服务器。没有API密钥,没有账单,没人偷看你的提示词。

三个尺寸,选错是最常见的坑:

E2B/E4B(轻量版):面向边缘设备。E4B能在树莓派5上运行。树莓派。这个我得说两遍。

Dense 31B(密集版):需要正经显卡(RTX 3090/4090级别,16-24GB显存),输出质量接近云端API。

MoE 26B(专家混合版):大规模部署或追求速度的首选。每次只激活部分网络,处理大量文档时成本归零、吞吐优秀。

三个版本共享一组让我意外的特性:原生多模态(图像+文本内置,非后期拼接)、128K上下文窗口(塞得下整个代码库或长篇小说)、推理模式(结构化逐步思考),以及真正的本地运行。

你该选哪个?

选E2B/E4B如果:你做边缘/移动/物联网开发,或者只想快速上手、不用操心显存。我在普通硬件上跑E4B,表现超出预期。适合永不联网的本地语音助手、离线浏览器插件、或者没网地区的树莓派工具。

打开网易新闻 查看精彩图片

选Dense 31B如果:你有正经显卡,想要编程辅助、文档分析或创意写作的最佳质量。这个版本让我忘了自己没用云端API。

选MoE 26B如果:你跑大规模任务或在乎速度。专家混合设计听起来是小细节,直到你处理成千上万份文档,突然发现成本是零、吞吐还极好。

为什么这事现在重要了

本地AI和云端AI的差距,正在悄悄崩塌。大多数人还没意识到。

举三个具体场景:

第一,隐私不再是妥协。医疗、法律、金融领域的从业者,终于能在本地处理敏感数据,不用把病历或合同发给第三方。

第二,成本结构彻底改变。不是"更便宜的API",是零边际成本。处理一万份文档,云端按token计费,本地只耗电费。

第三,可靠性。没有速率限制,没有服务宕机,没有"该地区不可用"。你的模型在你机器上,随时可用。

我花了一下午让E4B在旧笔记本上跑通,又花了一晚上让31B在主力工作站上处理代码审查。两个场景都流畅得不像本地模型。

这不是"未来可期"。这是现在就能用的东西。

如果你一直观望本地AI,Gemma 4可能是那个值得入场的版本。