凌晨一点十七分,我对着屏幕上的API账单和那个死活修不好的bug,第一次认真考虑:要不要把AI从云上撤下来。

每次往云端模型发prompt,我都得交出去点什么——真实的项目结构、真实的业务逻辑、真实的低级错误。那些念头被打包发往某个我不认识的服务器,然后等着一个黑箱吐回答案。那天晚上,我把Gemma 4拽到了本地。

打开网易新闻 查看精彩图片

200行Python模块,我丢给它一句话:"我这结构有什么问题?"

打开网易新闻 查看精彩图片

它没有客套。直接说我的错误处理"乐观到了危险的程度"。我查了。它说得对。而且全程没有任何一个字节离开过我的机器。

那一刻我才明白:Gemma 4不是"小一号的云端模型",它是开发者和AI之间一种完全不同的关系。

三个没人讲清楚的事实

Gemma 4是Google 2025年发布的开源权重模型家族。权重归你,下载、运行、微调、塞进自己的产品,全程不需要任何token触碰第三方服务器

但这代和之前的开源模型有三处根本不同:

第一,原生多模态。文本和图像可以在同一个prompt里处理,开箱即用。UI截图扔进去问bug在哪,手绘草图塞进去让它生成对应代码——"本地AI"对实际开发工作的意义变了。

第二,128K上下文窗口。不是营销数字。这意味着你能把整个代码库喂进去,不是单个文件、不是单个函数。跨模块问问题、追踪几百行内的逻辑,它能理解全局。

第三,全硬件覆盖。从树莓派到大规模服务器部署,Gemma 4有对应你手头设备的版本。

三个变体怎么选

这是每篇文章都绕过去的问题。我直接给答案:

后缀"it"=指令微调版,已经对齐对话和指令跟随;后缀"pt"=预训练基础版,用来在你自己的领域上做微调。

我的建议:先跑9B。实时响应够快,推理能力够用,大多数开发者现有的硬件就能跑。如果它让你惊喜,到此为止。如果对你的场景不够,再往上堆到27B。

打开网易新闻 查看精彩图片

本地部署:我实际跑通的配置

不给Colab链接,只说我机器上的实测。

需求:Python 3.10+,内存16GB起步,硬盘预留20GB。

安装Ollama——目前最干净的本地推理运行时:

curl -fsSL https://ollama.com/install.sh | sh

拉取Gemma 4 9B(按你的版本调整):

ollama pull gemma4:9b

直接运行:

ollama run gemma4:9b

三条命令。没有账号注册,没有额度焦虑,没有"您的请求可能用于改进服务"的小字条款。

那个凌晨之后,我的开发流程裂成了两半:需要联网查资料的时候用云端,涉及核心代码的时候切本地。Gemma 4没让我变成更好的程序员,但它让我对自己的代码重新有了主权感。