谷歌Gemma 4本地实测：9B模型能干啥？

Ping值焦虑

2026-05-05 18:27 ·北京

我在笔记本上跑了谷歌刚开源的Gemma 4，结果比预期复杂——小参数模型正在改写"本地部署"的游戏规则。

第一，9B参数是甜点区

原文测试显示，90亿参数的Gemma 4 9B在消费级硬件上跑得动。这不是实验室数据，是作者用M3 MacBook Pro实测的结果。内存占用控制在合理范围，意味着个人开发者不用再盯着云端API账单。

第二，长上下文是隐藏王牌

128K的上下文窗口（即模型能"记住"的文本长度）被作者重点标记。本地跑长文档分析、代码库理解，过去是70B级别模型的特权，现在9B就能碰一碰。谷歌这次把技术下放的幅度，比Gemma前几代激进得多。

第三，"开源"的边界要仔细看

许可协议有商业使用限制，不是完全开放的Apache那套。作者提醒：如果你打算拿它做产品，得先读清楚条款。谷歌的开源策略一向如此——技术给你，但生态主导权要握在手里。

第四，量化压缩的代价

作者用了4-bit量化（一种压缩模型体积的技术）来适配本地硬件。精度损失客观存在，但"能用"和"完美"之间，个人开发者往往选前者。这是本地部署的永恒妥协。

最后一点：竞争格局变了

同一天，Mistral、Hugging Face都有动作。小模型赛道突然拥挤，说明行业共识正在转移——不是每个场景都需要GPT-4级别的火力，"够用且便宜"正在成为新刚需。

作者的数据：9B模型在M3 Max上生成速度约15-20 token/秒。不算快，但写代码、改文档足够跟手。本地部署的性价比公式，正在被重新计算。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴