Google推出Gemini 3.5 Flash Low：用45%更少token解决配额焦虑|Google|flash|gemini|low|token|开源模型|知名企业|谷歌|配额

Google的AI编程工具Antigravity最近陷入了一场"token危机"。用户抱怨配额限制过紧，尤其是用来写代码时，token消耗速度远超预期。Google的应对策略不是简单放宽限制，而是推出了一款更"省"的模型——Gemini 3.5 Flash（Low）。

这款新模型的核心卖点很直接：比原版减少约45%的token消耗。作为对照，原来的Gemini 3.5 Flash现在似乎被重命名为"Medium"档位。Google DeepMind Antigravity负责人Varun Mohan解释，Low变体针对简单任务优化了token使用效率，同时在SWE（软件工程）任务上"通常"优于旧版的Gemini 3 Flash（现称"High"档位）。

但Mohan强调，Low档位并非偷工减料。它调整的是模型的"努力程度"，而非压缩系统提示或上下文。换句话说，简单任务用低功耗模式，复杂任务仍建议切回Medium或更高档位。这种分层设计试图在成本与性能之间找到平衡点。

配额问题曾让Google颇为被动。Gemini 3.5 Flash发布后，AI Pro计划的限制被悄悄收紧，引发用户强烈反弹。Google两次上调Antigravity的配额，总计提升9倍，仍未完全平息不满。此次Low模型的推出，配合全平台配额重置，算是组合拳的第三招。

有用户质疑Google是否在"拿用户当测试品"。Mohan承认这种感受可以理解，但称团队内部已使用较长时间。他坦承一个盲点：Google把精力放在了让模型又快又好地解决复杂任务上，却低估了简单任务的token计量问题。未来会改进。

需要留意的是，目前Gemini 3.5 Flash（Low）似乎仅在Antigravity平台可用，尚未作为独立模型出现在Google AI Studio等通用接口中。这是否意味着Google正将Antigravity作为新模型的试验场，再逐步推广至全线产品？Mohan的承诺和Low档位的实际表现，将是观察Google AI产品策略的重要窗口。