开源大模型的选择越来越丰富了。Llama、Mistral、Phi、Qwen——你能下载到本地运行的模型已经形成一个完整的生态。谷歌在这个领域的答案是Gemma,而第四代Gemma 4(2026年4月2日发布)可能是迄今为止最大的一次升级:基于Gemini 3的研究成果,支持文本、图像、视频、音频多模态,256K上下文窗口,原生函数调用,可配置的"思考模式",以及——终于——干净的Apache 2.0许可证。

这篇文章的目标很简单:零机器学习背景,只要会装软件、能敲命令行,就能在5分钟内把Gemma 4跑在你的笔记本上。不需要租GPU,不需要API密钥,没有遥测。

打开网易新闻 查看精彩图片

Gemma 4到底是什么?

Gemma是谷歌DeepMind的开放权重语言模型家族。"开放权重"意味着神经网络的权重矩阵——那些让模型工作的海量数字——可以自由下载。你可以运行、修改、微调,甚至集成到自己的产品里。

相比Gemma 3,这一代有几个关键变化:

许可证改为Apache 2.0。早期Gemma使用带禁止用途政策的自定义许可,让不少企业法务团队犹豫。Gemma 4是纯粹的Apache 2.0——无限制商业使用,无月活上限,无需特殊授权。这对生产部署来说是质变。

引入混合专家架构(MoE)。新的26B MoE变体每次只激活约40亿参数,用40亿的成本实现130亿级别的质量。

可配置的思考模式。模型可以在回答前逐步推理,难题打开,闲聊关闭。

原生函数调用。内置结构化工具使用支持,写Agent不再需要提示工程技巧。

更多模态。图像、视频帧,以及小型E2B/E4B模型的原生音频输入。还有原生系统提示支持。

更大上下文。小模型128K,大模型256K。

型号命名有门道

E2B/E4B的"E"代表有效参数。这些是面向边缘设备的密集模型,使用每层嵌入(PLE)技术在更少活跃参数下做更多事。

26B A4B是MoE模型。总参数260亿,但每次前向传播只激活约40亿。延迟和成本像40亿模型,质量接近130亿密集模型。注意:你仍然需要把全部260亿加载到内存。

笔记本用户建议从E4B开始。16GB内存的Mac或现代开发机都能流畅运行。

5分钟上手指南

用Ollama安装只需一条命令。完成后可以直接在终端聊天,丢一张图片让它描述,打开思考模式解数学题,或者用Python脚本像调用API一样使用它。

整个过程不需要理解Transformer架构,不需要知道什么是注意力机制。下载、运行、开始对话——开源大模型的门槛已经降到这个程度了。