谷歌Gemma 4实测：本地AI终于不用在性能和成本间二选一了

硬核玩家2哈

2026-05-11 12:08 ·北京

你有多久没认真对待过一个"开源模型发布"了？

我见过太多"颠覆性"模型，最后都变成跑分好看、实战拉胯。所以Google发布Gemma 4时，我照例等了一周，等热度过去，自己动手试。

结果完全出乎意料。

以前"本地跑AI"只有两个选项：要么玩具模型连完整对话都撑不住，要么显卡比二手车还贵。Gemma 4把这个死结彻底解开——用了几天之后，我认为这是今年最重要的开源模型发布之一。

下面是我实测的发现，以及不同配置该选哪个版本。

三个版本，选错的人最多

Gemma 4是Google最新的开源模型家族。"开源"意味着你下载权重，在自己的硬件上跑，不碰任何第三方服务器。没有API密钥，没有账单，没人偷看你的提示词。

三个尺寸，选错是最常见的坑：

E2B/E4B（轻量版）：面向边缘设备。E4B能在树莓派5上运行。树莓派。这个我得说两遍。

Dense 31B（密集版）：需要正经显卡（RTX 3090/4090级别，16-24GB显存），输出质量接近云端API。

MoE 26B（专家混合版）：大规模部署或追求速度的首选。每次只激活部分网络，处理大量文档时成本归零、吞吐优秀。

三个版本共享一组让我意外的特性：原生多模态（图像+文本内置，非后期拼接）、128K上下文窗口（塞得下整个代码库或长篇小说）、推理模式（结构化逐步思考），以及真正的本地运行。

你该选哪个？

选E2B/E4B如果：你做边缘/移动/物联网开发，或者只想快速上手、不用操心显存。我在普通硬件上跑E4B，表现超出预期。适合永不联网的本地语音助手、离线浏览器插件、或者没网地区的树莓派工具。

选Dense 31B如果：你有正经显卡，想要编程辅助、文档分析或创意写作的最佳质量。这个版本让我忘了自己没用云端API。

⚡ 选MoE 26B如果：你跑大规模任务或在乎速度。专家混合设计听起来是小细节，直到你处理成千上万份文档，突然发现成本是零、吞吐还极好。

为什么这事现在重要了

本地AI和云端AI的差距，正在悄悄崩塌。大多数人还没意识到。

举三个具体场景：

第一，隐私不再是妥协。医疗、法律、金融领域的从业者，终于能在本地处理敏感数据，不用把病历或合同发给第三方。

第二，成本结构彻底改变。不是"更便宜的API"，是零边际成本。处理一万份文档，云端按token计费，本地只耗电费。

第三，可靠性。没有速率限制，没有服务宕机，没有"该地区不可用"。你的模型在你机器上，随时可用。

我花了一下午让E4B在旧笔记本上跑通，又花了一晚上让31B在主力工作站上处理代码审查。两个场景都流畅得不像本地模型。

这不是"未来可期"。这是现在就能用的东西。

如果你一直观望本地AI，Gemma 4可能是那个值得入场的版本。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴