用云端AI时,你有没有算过这笔账?这个月调了多少次API,会不会触发用量上限,那些没整理好的笔记和代码草稿到底要不要发出去。这种焦虑跟bug无关,是另一种更隐蔽的消耗。过去一年,这几乎成了我的默认状态。

云AI确实好用。但它越来越不像"拥有"某种能力,更像是在租一个随时可能涨价、限速或收回的东西。Gemma 4让我注意的正是这点——不是因为它参数多大、榜单排第几,而是它让"本地跑一个能用的AI"这件事,第一次感觉不折腾了。

打开网易新闻 查看精彩图片

对学生、独立开发者、内容创作者来说,这个转变很关键。讨论的重心从"能不能用上AI"慢慢滑向"这玩意儿到底归谁管"。

Gemma 4是Google最新的开放模型家族,底层研究和Gemini同源,但完全开放下载、本地运行、微调和集成。目前四个主要版本:E4B(40亿参数,单卡友好)、E9B(90亿参数,平衡型)、31B(310亿参数,高性能)、26B A4B MoE(混合专家架构,重推理任务)。

有意思的是,即使是小参数版本,也塞进了以前只有企业级模型才给的功能:128K上下文窗口、多模态理解(图文)、多语言支持、结构化输出(JSON/函数调用)。本地AI不再等于"阉割版",Gemma 4把它当成正经开发环境来设计。

选模型的正确姿势不是问"哪个最强",而是"我的硬件和工作流能扛住哪个"。

我自己测的时候故意没选大模型,挑了E4B。因为我想看看普通人真实的使用场景——不是顶配显卡,是手头能摸到的设备。31B确实更强,26B A4B MoE对复杂推理很有吸引力,但写东西、整理研究笔记、分析截图、轻量实验这些活儿,E4B才是诚实的试金石。一个在纸面上很牛的模型,对目标用户来说可能根本跑不动,这种落差往往被评测忽略。

部署过程比预期顺滑得多。用Ollama或LM Studio这类工具,本地跑模型的摩擦感几乎消失了。一条命令:ollama run gemma4:4b,完事。

真正让我意外的是工作流整合。我故意塞了一堆东西进去:潦草的研究笔记、几张截图、一个没写完的内容大纲。本来预想会卡顿或需要反复调教,结果没有。它直接可用。