谷歌的Flash系列一直有个尴尬定位——比Pro快、比Pro便宜,但性能总差一截。I/O 2026上,这个剧本被彻底推翻。Gemini 3.5 Flash不仅跑分超过Gemini 3.1 Pro,谷歌还放话:速度是同类前沿模型的4倍,"成本往往不到一半"。
更关键的是方向变了。以前拼的是谁答得更准,现在比的是谁能干更多活。
为"代理"而生
谷歌给3.5 Flash的定义很明确:长周期代理任务(long-horizon agentic tasks)。说人话就是——AI得会规划、搭建、迭代,跨多步骤完成目标,而不是问一句答一句。
官方举了两个场景:开发者过去花几天做的事,它能压缩到"一小部分时间";审计师要数周的活,它也能接手。具体数字方面,Terminal-bench 2.1得分76.2%,GDPval-AA达到1656 Elo,MCP Atlas为83.6%,多模态理解测试CharXiv Reasoning拿到84.2%。
技术配套也跟上。3.5 Flash接入谷歌的Antigravity平台,这是一个以代理为核心的开发环境,支持并行部署多个子代理处理复杂负载。消费者端更直接:Gemini App和Google Search的AI Mode,默认模型已经换成它。
还有个新产品叫Gemini Spark——24小时运行的个人AI代理,帮用户主动执行任务。目前正在向可信测试者开放,下周开始对美国地区的Google AI Ultra订阅者推送Beta版。
落地节奏
3.5 Flash的全球可用性分几条线铺开:
• 消费者:Gemini App、Search AI Mode已上线
• 开发者:Google AI Studio、Gemini API、Android Studio已开放
• 企业:Gemini Enterprise Agent Platform、Gemini Enterprise双通道
3.5 Pro也在内部测试中,预计下月发布。
谷歌在赌什么
这场发布释放的信号很清晰:代理能力(agentic capability)成为谷歌AI路线的核心。竞争维度从"谁更懂回答"转向"谁能更少打扰用户、独立完成动作"——订日程、写代码跑代码、管流程,都是例子。
3.5 Pro下月见分晓。届时能看清谷歌想把这套"执行者"叙事推到多远。
热门跟贴