Google把26B模型压成4B算力，开发者账单直接砍了80%|Google|新论文|模态|知名企业|调用|谷歌

去年Google请我去巴黎参加Gemma 3发布会。现场demo很炫，但真正的价值是我在工位上跑完测试才确认的——演示没骗人。

Gemma 3是第一个真正追上商业大模型的开源版本。没打赢Gemini，但达到了Gemini一年前的水平。对一个能私有化部署的模型来说，这个跨越足够让产品经理们重新评估技术栈。

然后我踩了个坑。

周末在Vertex AI Model Garden部署Gemma 3测试，忘关机。周一账单一出，我和云基础设施的关系需要重新谈判。我专门做了期YouTube视频，防止别人重蹈覆辙。

这篇文章是赎罪。

Gemma 4刚发布，跳跃幅度比Gemma 3更大。这次我选Cloud Run部署——不用时自动缩容到零。忘关机？随便你。一分钱不用付。

Gemma 4不是单模型，是四个独立变体。两小两大，各有取舍。

26B版本值得细看。它用MoE（混合专家）架构：磁盘上存260亿参数，推理时每token只激活40亿。像一家大公司，遇到问题只叫相关专家，全员不待命。能力接近260亿模型，算力成本只有40亿级别。推理环节的账单差异，下面数据会说清楚。

除了尺寸，Gemma 4加了多模态输入。图像、音频、视频都能喂，输出纯文本。小模型（E2B、E4B）能处理带音频的视频；大模型处理图像+超长上下文。

但对搭agent流水线的人来说，真正改规则的是两项升级：推理能力和函数调用。

推理能力让模型先拆解问题再回答，不是直接跳结论。以前必须上前沿模型的复杂任务，现在Gemma 4能以几分之一成本搞定。函数调用也大幅改进，模型能稳定返回结构化工具调用——这是agent编排多步骤的核心前提。

这两项加起来，开源模型第一次能在agent场景里和闭源产品掰手腕。

为什么选Cloud Run？

传统模型托管是租机器。开一小时，付一小时。睡着也计费。Cloud Run是事件驱动：有请求就启动容器，没请求就缩到零实例。冷启动时间对Gemma 4的较小模型在可接受范围，26B大模型需要预热策略，但非高频场景下成本曲线依然碾压常驻实例。

我的测试配置：2 vCPU、8GB内存、NVIDIA L4 GPU（24GB显存）。Gemma 4的E4B（40亿激活参数）在这个环境下跑得很顺。26B MoE模型需要更精细的批次策略，但单用户交互场景下延迟可控。

关键数字：同等调用量下，Cloud Run方案比我去年Vertex AI的"忘关机"账单低了约80%。具体比例取决于你的流量模式——波动越大，优势越明显。

整个流水线分四层。

存储层用Cloud Storage放模型权重。Gemma 4的完整套件从Hugging Face拉取后转存，26B模型约50GB，E4B约9GB。建议开对象版本控制，方便回滚。

容器层用自定义Docker镜像。基础镜像选Google的深度学习容器，叠加上vLLM（一个开源推理引擎）和Gemma 4的特定优化分支。vLLM的PagedAttention机制对MoE模型的内存效率很关键。

服务层是Cloud Run本身。关键参数：--gpu=1 --max-instances=1 --concurrency=1。concurrency设1是为了避免GPU内存争用，多用户场景需要队列层或升配到A100。

网络层建议绑VPC。模型文件走内部IP从Cloud Storage拉取，不走公网。出口流量只留给实际API响应。

跑了两组基准：单轮问答和多轮agent任务。

E4B在GSM8K（数学推理数据集）上准确率71%，接近Gemma 3的27B版本。延迟方面，首token生成时间（TTFT）约800ms，吞吐约45 tokens/秒。对非实时agent足够用。

26B MoE模型同数据集准确率冲到82%，但TTFT涨到2.3秒——MoE的路由计算有开销。批量推理时效率反超，单条请求建议加缓存层。

函数调用测试用我自己设计的工具集：查日历、发邮件、调内部API。Gemma 4的结构化输出稳定性比Gemma 3提升明显，错误格式率从12%降到3%以下。这个指标对生产环境是生死线。

多模态部分只测了图像描述。E4B对截图文字识别准确率够用，但复杂图表需要上26B。视频理解我暂时没跑，官方说E2B/E4B支持，实际效果待验证。

三类场景匹配度最高。

内部工具团队：已有数据不出域的合规要求，Gemma 4+Cloud Run比买闭源API+签数据处理协议快两周落地。成本模型也透明，没有"用量暴涨后重新谈判"的隐忧。

低频高价值任务：比如月度财务对账、季度合规审查。这类任务不需要常驻模型，Cloud Run的零缩容特性完美契合。

agent原型验证：函数调用+推理能力的组合，让Gemma 4成为测试多步骤agent的最便宜选项。验证完逻辑再决定是否上更大的闭源模型。

不适合的场景也明确：实时对话（延迟敏感）、超高并发（Cloud Run的实例上限和冷启动是瓶颈）、需要最强多模态能力的场景（Gemini 1.5 Pro still wins）。

去年那笔账单有个细节：Vertex AI的计费粒度是分钟级，但最低收费一小时。我周五晚上11点部署，周一早上9点发现，按72小时计费。实际调用时间可能只有测试的20分钟。

Cloud Run的计费粒度是100毫秒。缩到零后，只有存储费用——模型文件存在Cloud Storage，标准存储约$0.02/GB/月。26B模型50GB，月存成本1美元。

这个对比本身说明了基础设施选择的权重。模型能力差距在缩小，但部署成本的结构性差异，可能直接决定一个项目能不能活到下一轮融资。

Google这次把Gemma 4的权重同时推到了Hugging Face、Kaggle和Vertex AI Model Garden。我选Cloud Run是因为需要那个"忘关机也不心疼"的安全感。你的安全感来自哪里？