那个凌晨，我把代码从云端撤回了

闪存猎手

2026-05-11 11:37 ·北京

凌晨一点十七分，我对着屏幕上的API账单和那个死活修不好的bug，第一次认真考虑：要不要把AI从云上撤下来。

每次往云端模型发prompt，我都得交出去点什么——真实的项目结构、真实的业务逻辑、真实的低级错误。那些念头被打包发往某个我不认识的服务器，然后等着一个黑箱吐回答案。那天晚上，我把Gemma 4拽到了本地。

200行Python模块，我丢给它一句话："我这结构有什么问题？"

它没有客套。直接说我的错误处理"乐观到了危险的程度"。我查了。它说得对。而且全程没有任何一个字节离开过我的机器。

那一刻我才明白：Gemma 4不是"小一号的云端模型"，它是开发者和AI之间一种完全不同的关系。

三个没人讲清楚的事实

Gemma 4是Google 2025年发布的开源权重模型家族。权重归你，下载、运行、微调、塞进自己的产品，全程不需要任何token触碰第三方服务器。

但这代和之前的开源模型有三处根本不同：

第一，原生多模态。文本和图像可以在同一个prompt里处理，开箱即用。UI截图扔进去问bug在哪，手绘草图塞进去让它生成对应代码——"本地AI"对实际开发工作的意义变了。

第二，128K上下文窗口。不是营销数字。这意味着你能把整个代码库喂进去，不是单个文件、不是单个函数。跨模块问问题、追踪几百行内的逻辑，它能理解全局。

第三，全硬件覆盖。从树莓派到大规模服务器部署，Gemma 4有对应你手头设备的版本。

三个变体怎么选

这是每篇文章都绕过去的问题。我直接给答案：

后缀"it"=指令微调版，已经对齐对话和指令跟随；后缀"pt"=预训练基础版，用来在你自己的领域上做微调。

我的建议：先跑9B。实时响应够快，推理能力够用，大多数开发者现有的硬件就能跑。如果它让你惊喜，到此为止。如果对你的场景不够，再往上堆到27B。

本地部署：我实际跑通的配置

不给Colab链接，只说我机器上的实测。

需求：Python 3.10+，内存16GB起步，硬盘预留20GB。

安装Ollama——目前最干净的本地推理运行时：

curl -fsSL https://ollama.com/install.sh | sh

拉取Gemma 4 9B（按你的版本调整）：

ollama pull gemma4:9b

直接运行：

ollama run gemma4:9b

三条命令。没有账号注册，没有额度焦虑，没有"您的请求可能用于改进服务"的小字条款。

那个凌晨之后，我的开发流程裂成了两半：需要联网查资料的时候用云端，涉及核心代码的时候切本地。Gemma 4没让我变成更好的程序员，但它让我对自己的代码重新有了主权感。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴