4月2日,Google在AI模型战场扔下一组连招——Gemini 3.1 Flash Lite预览版、Gemma 4-26B和Gemma 4-31B三款模型同步上线。Simon Willison在当天发布的技术笔记里把这称为"一次节奏精准的beat",而开发者社区的第一反应是:Google终于把"便宜够用"这件事玩明白了。

Flash Lite的算盘:把推理成本砍到脚踝

Flash Lite的算盘:把推理成本砍到脚踝

Gemini 3.1 Flash Lite的定位很直白——比Flash更Flash。Google内部测试数据显示,这款预览版在标准推理任务上的延迟比3.1 Flash降低40%,token单价压到0.15美元/百万输入token。作为参照,GPT-4o mini的定价是0.15美元/百万输入token,输出token则是0.6美元。

但Google的杀招不在对标,在错位。Flash Lite牺牲的是多模态复杂推理和超长上下文(128K vs Flash的1M),专注服务三类场景:客服机器人的意图识别、RAG(检索增强生成)系统的首轮过滤、以及移动端App的实时补全。一位在Discord测试频道里的开发者反馈:"同样的QPS(每秒查询数),我们的AWS账单从每月2.3万刀降到6800刀,准确率掉了1.2个百分点——这买卖划算。"

Google Cloud的产品经理在发布说明里埋了一句狠话:"我们不做模型能力的军备竞赛,我们做单位成本的能力密度竞赛。"这话的潜台词是:OpenAI靠o系列打高端市场,Anthropic靠Claude 3.7 Sonnet守安全牌,Google选择在中低端市场用价格杠杆撬动迁移。

Gemma 4的26B与31B:开源社区的"可商用核弹"

Gemma 4的26B与31B:开源社区的"可商用核弹"

同一天发布的Gemma 4系列更值得细品。26B和31B两个参数版本,Apache 2.0协议,允许商用修改,权重直接挂在Hugging Face和Kaggle。Simon Willison在笔记里特别标注了Gemma 4的训练数据构成——合成数据占比从Gemma 3的35%提升到52%,这意味着Google在"用模型教模型"这条路上走得更远了。

31B版本在MMLU-Pro(大规模多任务语言理解专业版)上的得分是81.4,比Llama 3.3 70B高出2.1分,参数量却不到后者的一半。26B版本则瞄准边缘部署,量化后能在单张RTX 4090上跑满上下文。Hugging Face的社区维护者@osanseviero在推文里算了笔账:"用vLLM部署Gemma 4-26B,吞吐量比同级别的Qwen2.5-32B高18%,首token延迟低23%。"

Google的算盘在这里变得更清晰:Gemini家族守云端API的生意,Gemma家族打开发者生态的口碑。两个产品线共享部分训练基础设施,但Gemma的开源策略本质上是在给Google Cloud的Vertex AI导流——模型是免费的,好用的推理托管是要花钱的。

Simon Willison的观察:为什么这次节奏对了

Simon Willison的观察:为什么这次节奏对了

作为LLM(大语言模型)工具链的活跃维护者,Willison的视角偏向实用主义。他在笔记里提到一个细节:llm-gemini插件的0.30版本同步支持了这三款新模型,而插件的CLI(命令行界面)调用语法没有任何变化——开发者改一行模型名称就能切换

这种"无感迁移"的设计哲学,恰恰是Google过去两年被诟病最多的短板。2024年的Gemini 1.5 Pro发布时,API文档混乱、SDK版本碎片化、定价页面藏得比宝藏还深。Willison当时的评价是:"Google有最好的模型工程师,最差的产品经理。"

这次发布的风向变了。Flash Lite的预览版直接集成进Google AI Studio的免费 tier,Gemma 4的模型卡(Model Card)把训练数据溯源、评估基准、已知局限列得比学术论文还细。一位在Reddit r/LocalLLaMA板块的评论被顶到热一:"我终于不用在三个不同的Google文档里找API密钥了,他们做了个统一的控制台。"

定价战的下一回合:谁会被挤到墙角

定价战的下一回合:谁会被挤到墙角

Flash Lite的0.15美元定价不是孤立事件。过去六个月,推理成本的下降曲线比摩尔定律还陡:DeepSeek V3把价格打到0.07美元/百万token,阿里云的Qwen2.5-Max在促销期甚至试过0.05美元。Google这次没有跟进价格战的最底部,而是卡在"性能可接受"与"成本可控"的甜蜜点。

这种策略的代价是高端市场的让渡。Gemini 3.1 Ultra至今没有公开定价,Google内部人士透露其定位是"企业级专属",走POC(概念验证)到年度合同的路线。相比之下,OpenAI的o3-mini-high和Anthropic的Claude 3.7 Sonnet仍在争夺"最强推理模型"的头衔,单token价格是Flash Lite的20倍以上。

开发者的选择正在分化。Perplexity的CEO Aravind Srinivas在3月底的播客里透露,他们的搜索后端已经拆分成三层:复杂查询走Claude 3.7,中等难度走Gemini 3.1 Pro,简单意图识别用自研的轻量模型。Flash Lite的出现,可能让第三层直接外包给Google——"我们自己训模型的ROI(投资回报率)已经算不过来了。"

Google的AI产品副总裁Tulsee Doshi在发布后的AMA(问我任何事)环节被问到:"Gemma 4会不会有405B级别的版本?"她的回应是:"我们听到社区的声音了。"这句话的留白空间,比任何技术参数都更值得玩味——当开源模型的能力密度追上闭源旗舰,API生意的护城河还剩多宽