Gemini 3.5 Flash上位：谷歌把AI从"答题器"改成"执行者"|flash|gemini|安全漏洞|执行者|知名企业|谷歌

谷歌的Flash系列一直有个尴尬定位——比Pro快、比Pro便宜，但性能总差一截。I/O 2026上，这个剧本被彻底推翻。Gemini 3.5 Flash不仅跑分超过Gemini 3.1 Pro，谷歌还放话：速度是同类前沿模型的4倍，"成本往往不到一半"。

更关键的是方向变了。以前拼的是谁答得更准，现在比的是谁能干更多活。

为"代理"而生

谷歌给3.5 Flash的定义很明确：长周期代理任务（long-horizon agentic tasks）。说人话就是——AI得会规划、搭建、迭代，跨多步骤完成目标，而不是问一句答一句。

官方举了两个场景：开发者过去花几天做的事，它能压缩到"一小部分时间"；审计师要数周的活，它也能接手。具体数字方面，Terminal-bench 2.1得分76.2%，GDPval-AA达到1656 Elo，MCP Atlas为83.6%，多模态理解测试CharXiv Reasoning拿到84.2%。

技术配套也跟上。3.5 Flash接入谷歌的Antigravity平台，这是一个以代理为核心的开发环境，支持并行部署多个子代理处理复杂负载。消费者端更直接：Gemini App和Google Search的AI Mode，默认模型已经换成它。

还有个新产品叫Gemini Spark——24小时运行的个人AI代理，帮用户主动执行任务。目前正在向可信测试者开放，下周开始对美国地区的Google AI Ultra订阅者推送Beta版。

落地节奏

3.5 Flash的全球可用性分几条线铺开：

• 消费者：Gemini App、Search AI Mode已上线
• 开发者：Google AI Studio、Gemini API、Android Studio已开放
• 企业：Gemini Enterprise Agent Platform、Gemini Enterprise双通道

3.5 Pro也在内部测试中，预计下月发布。

谷歌在赌什么

这场发布释放的信号很清晰：代理能力（agentic capability）成为谷歌AI路线的核心。竞争维度从"谁更懂回答"转向"谁能更少打扰用户、独立完成动作"——订日程、写代码跑代码、管流程，都是例子。

3.5 Pro下月见分晓。届时能看清谷歌想把这套"执行者"叙事推到多远。