Google甩出4款开源模型，手机能跑256K长文本

摸鱼算法

2026-04-03 08:29 ·北京

开源社区昨天还在算Llama 4的许可条款有多宽松，今天Google就把桌子掀了——Gemma 4直接Apache 2.0，商用随便改，连署名都能省。

这相当于把自家Gemini 3的引擎拆成零件，按斤卖给开发者。

四款型号，从20亿到310亿参数，覆盖手机到工作站。最小那款E2B，Google拉着Pixel团队、高通、联发科一起调了半年，现在能在Raspberry Pi上跑"近零延迟"的推理。不是演示视频，是量产级部署。

参数对比本身没什么意思。真正狠的是上下文窗口：边缘设备128K，大模型直接256K。什么概念？你把整本《三体》扔进提示框，它还能记住叶文洁在哪页按下了发射键。

多模态是标配而非卖点。原生视频、图像、音频输入，140种语言训练——Google没说这是"支持"，说的是"natively trained"。区别就像会背菜谱和真下过厨房。

Apache 2.0的潜台词

Apache 2.0的潜台词

开源许可证分两种：一种让你用得爽，一种让律师睡得着。Apache 2.0属于后者。

Meta的Llama系列今年改了好几轮许可，每次都有开发者算"月活7亿以下"到底包不包含子公司。Google这次把话说明白：数据、基础设施、模型权重，全归你。本地部署或上云，随你。

「完整的数字主权」，Google官方博客原话。

这话是说给谁听的？看看发布渠道：Hugging Face、Kaggle、Ollama，全是开发者聚集地。没有企业销售跟进，没有云配额捆绑。甚至31B和26B MoE版本直接塞进Google AI Studio，点完同意条款就能下载。

一种可能是Google真的转性了。另一种可能是——它算过账，开放生态带来的训练数据反馈，比收许可费更值钱。

边缘AI的临界点

边缘AI的临界点

2B和4B模型被单独命名为E2B、E4B，E代表Edge。Google的硬件合作名单很有意思：Pixel团队负责Android优化，高通管骁龙平台，联发科补天玑芯片。

三方联合优化的结果，是手机端能跑128K上下文的多模态模型。不是云端API回传结果，是本地SoC直接算。

这对两类场景是质变：一是隐私敏感型应用，医疗、金融、企业内网；二是网络不稳定地区。Google博客提到「近零延迟」，但没给具体数字——估计在100-300毫秒区间，足够支撑实时语音交互。

Jetson Nano也在支持列表里。这款2019年发布的边缘计算板子，现在能跑Google最新的视觉-语言-音频融合模型。老硬件焕发第二春，靠的是模型压缩和量化技术的进步，而非英伟达良心发现。

与Llama 4的正面交锋

与Llama 4的正面交锋

时间线很微妙。Meta前脚发布Llama 4，Google后脚甩出Gemma 4。两者定位重叠：开源、多尺寸、商用友好。

但策略截然不同。Meta把最强模型（Behemoth）藏着当蒸馏教师，开源的是"经过优化"的版本。Google这次没有藏招，310亿参数的MoE版本直接放出来，还明说「 outperform models 20x its size」。

20倍这个数字需要拆解。Google没说是哪些模型，但业内推测指向GPT-4级别的闭源API。如果是真的，意味着开源社区终于拿到了能正面硬刚ChatGPT的弹药——而且不用按token付费。

OCR和图表理解被单独强调。这不是炫技，是切中企业痛点：财务报告、科研论文、工程图纸，以前都要先丢给云端多模态API做预处理，现在本地就能跑。

语音输入只在E2B和E4B支持，大模型版本反而没有。这个取舍耐人寻味——Google似乎在押注"小模型+专用硬件"成为语音交互的主流形态，而非云端大模型统一接管。

开发者拿到什么

开发者拿到什么

权重文件已经能在Hugging Face下载。Kaggle提供 notebooks 复现官方评测，Ollama一行命令本地运行。

Google AI Studio的31B和26B版本适合快速验证，Edge Gallery的E4B/E2B适合端侧原型。工具链是完整的，从实验到部署没有明显断点。

一个细节：Gemma 4的训练数据包含140种语言，但官方评测主要报英语成绩。小语种效果如何，需要社区自己测。Google开了头，但没承诺包圆。

256K上下文是双刃剑。能处理长文档，也意味着注意力计算的内存开销暴增。官方没公布显存需求，但参考同类模型，310B MoE版本大概需要80GB以上显存才能全精度运行——这已经不是"个人开发者友好"的范畴。

量化版本迟早会有人做。问题是，压缩到int4之后，长文本的"大海捞针"测试还能不能过？

Google博客最后提到，Gemma 4的架构和Gemini 3共享研究基础。这意味着闭源产品的改进会快速回流到开源分支，也可能意味着两者永远保持一代差距——取决于Google的商业判断。

开源社区现在有了Llama 4和Gemma 4两张牌。前者生态更成熟，后者许可更干净。你的下一个项目，会押哪边？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴