我在笔记本上跑了谷歌刚开源的Gemma 4,结果比预期复杂——小参数模型正在改写"本地部署"的游戏规则。
第一,9B参数是甜点区
打开网易新闻 查看精彩图片
原文测试显示,90亿参数的Gemma 4 9B在消费级硬件上跑得动。这不是实验室数据,是作者用M3 MacBook Pro实测的结果。内存占用控制在合理范围,意味着个人开发者不用再盯着云端API账单。
第二,长上下文是隐藏王牌
128K的上下文窗口(即模型能"记住"的文本长度)被作者重点标记。本地跑长文档分析、代码库理解,过去是70B级别模型的特权,现在9B就能碰一碰。谷歌这次把技术下放的幅度,比Gemma前几代激进得多。
第三,"开源"的边界要仔细看
许可协议有商业使用限制,不是完全开放的Apache那套。作者提醒:如果你打算拿它做产品,得先读清楚条款。谷歌的开源策略一向如此——技术给你,但生态主导权要握在手里。
第四,量化压缩的代价
作者用了4-bit量化(一种压缩模型体积的技术)来适配本地硬件。精度损失客观存在,但"能用"和"完美"之间,个人开发者往往选前者。这是本地部署的永恒妥协。
最后一点:竞争格局变了
同一天,Mistral、Hugging Face都有动作。小模型赛道突然拥挤,说明行业共识正在转移——不是每个场景都需要GPT-4级别的火力,"够用且便宜"正在成为新刚需。
作者的数据:9B模型在M3 Max上生成速度约15-20 token/秒。不算快,但写代码、改文档足够跟手。本地部署的性价比公式,正在被重新计算。
热门跟贴