打开网易新闻 查看精彩图片

整场I/O 2026,谷歌CEO Pichai说了句不太像他会说的话:"最前沿的Agent可能只触达过世界上0.1%的人。"

话外音没说,但意思很清楚:Agent这东西已经跑通了,可跑通和跑起来是两件事。

OpenAI有Operator、Codex,Anthropic有Claude Code、Cowork,但它们至今只在极少数人的工作流里转。Google想做的,是让Agent变成「自来水」。

这大概是理解整场I/O 2026最关键的一把钥匙。

Gemini 3.5、Spark、Omni、搜索变革、TPU 8,看上去是五件事,但底层只讲了一件事:Agent怎么从0.1%走到99.9%?

打开网易新闻 查看精彩图片

1

Gemini 3.5 Flash是所有其他事情的底座。

Agent的经济模型能不能成立,取决于单次任务的成本够不够低。3.5 Flash做的事情,是把Agent的运行成本拉到一个可以规模化的水位。

Google自己也已经这么干了——内部token日处理量从3月的5000亿飙到3万亿,每隔几周翻一倍。

基准测试一句话带过:Terminal-Bench 76.2%、MCP Atlas 83.6%、GDPval 1656 Elo,全面压了自家四个月前的3.1 Pro一头——又一个中杯干翻大杯的故事,和GPT-4o mini超过GPT-4、Sonnet逼近Opus是同一条曲线——参数壁垒正在被工程效率摊薄。

但Pichai把3.5 Flash推到舞台中心,不是在秀肌肉,是在算账。

3.5 Flash输出速度是其他前沿模型的4倍,在Antigravity框架内优化后可达12倍,定价不到同档前沿模型的一半。

他在台上直接报了数:一家每天在Google Cloud上处理1万亿token的企业,把80%的负载迁到Flash,一年能省超过10亿美元。Pichai还补了一句:"你可能听过CIO抱怨年度token预算到五月就花光了。"

Pro下个月才上,但Flash已经够用了。

打开网易新闻 查看精彩图片

2

引擎有了,接下来是车。

Gemini Spark,Google的第一个个人Agent产品,24/7跑在云端虚拟机上,你合上电脑它还在干活。

底层是Gemini 3.5 Flash加Antigravity框架,支持长周期任务。

演示场景很能说明问题:让它写一封产品总结邮件,它自动从Gmail、Docs、Sheets、Slides里拉事实写草稿;让它管学校时间表,它横跨日历、邮件、通讯录来协调。

这些事拆开看都不复杂,但串起来需要一样东西:对用户数字生活的全盘访问权。这就是Google做Agent的护城河——和OpenAI、Anthropic不在一个维度上。

后两者的Agent更强、更灵活、编码能力更硬,但它们够不到你的邮箱、日历、文档和通讯录。

Spark可以,因为它就长在这些东西里。

某种意义上,这是Google二十年来积累的最大一笔资产第一次被激活。Gmail、Calendar、Docs、Sheets、Drive——这些产品各自都有数亿用户,但一直是孤岛。Spark第一次用一个Agent把它们连成了群岛。

这和智能手机早期的一个时刻是同构的。iPhone之前,手机上的App也是孤岛——你在通讯录里找到号码,手动切到短信App发送。iOS把通讯录、短信、电话、日历打通,一个联系人卡片上就能直接发短信、打电话、约会议。

这种"打通"本身不是技术突破,但它改变了用户的行为模式。Spark就是Google版的那次"打通",只是从手机扩展到了整个数字生活。

3

Gemini 3.5 Flash是Agent的引擎,Spark是Agent的车,而第一次亮相的Omni则走了另一条路——它不跑Agent,它跑"世界模型"。

Gemini Omni 目前还只有 flash 版本,已经上线Google FLow,它的定位是"能从任何输入生成任何输出模态的模型",从目前的演示看,你可以粗俗的理解为「P视频」。

文本、图像、音频、视频,任意组合输入,跨模态推理后输出视频。不是流水线拼接,是一个推理过程把所有输入吃透,生成一个逻辑自洽的结果。

Omni不是Veo的常规升级,它是Gemini主架构从输入端多模态延伸到输出端多模态的产物——Veo和Nano Banana变成了它身上的能力组件,而不是独立模型。

Omni其实又是一个"专用模型走向统一模型"的案例——GPT-4开始把文本和图像塞进一个模型,Gemini 1.0接入了音频,但生成侧仍然割裂。

而Omni把生成侧也完成统一——就像早年的声卡、显卡、网卡从独立板卡整合进CPU,不是因为专用方案不够好,而是因为统一方案消除了模态间的转换成本,而这种成本是多模态工作流里最大的摩擦。

4

模型变了,搜索也得变。

Agentic Coding进入搜索:搜"黑洞如何影响时空",搜索引擎不再返回链接,而是实时写代码、跑代码,给你一个可以拖拽参数的交互式可视化页面。搜索第一次从"找信息"变成了"做事情"。

这代网民大概不会记得,1998年Google上线时做的事儿叫"组织全球信息"——你提问,它给地址。

28年过去,知识图谱让它更精准,AI Overview让它更直接,但底层逻辑始终没变过:我帮你找到,你自己看。

而现在,这个逻辑被撕开了一道口子,搜索直接在原地搭建一个答案。从信息检索到问题解决,一个典型的范式迁移。

Google敢对所有用户免费开放,因为它需要用户养成"搜索即解决问题"的习惯——一旦成立,搜索引擎就从流量入口变成了任务执行入口。

5

底层逻辑变了,底层硬件也得跟着变。

TPU 8拆成了两颗芯片:TPU 8t专攻训练,TPU 8i专攻推理。算力翻倍在AI行业已经不算新闻了,真正有意思的是训练和推理第一次被当成了两种截然不同的工作负载。

早年的计算机只有一颗通用处理器,后来GPU独立出来,CPU和GPU的分家是因为计算需求的分化倒逼了硬件的分化。

TPU 8t和8i的分家遵循同样的机制——训练是批量重计算,推理是低延迟轻计算,强行用一颗芯片兼顾两者,就像让一辆车同时跑拉力赛和F1。拆开之后,各自奔向各自的最优解。

这是基础设施走向成熟的标志。

一个行业还在草莽阶段时,通用方案就够了;只有当需求分化到一定程度,专用方案才比通用方案更经济。训练和推理的分家,意味着AI计算的需求已经复杂到值得在硅片层面做取舍了。

6

回看整场I/O 2026,Pichai那句话其实已经把底牌亮了。

Gemini 3.5 Flash把Agent的运行成本拉到可规模化的水位,Spark把Google二十年的产品矩阵第一次用一个Agent串了起来,Omni把多模态生成从分治推向统一,搜索从信息检索变成了任务执行,TPU 8把训练和推理拆成了两条专用赛道。

当然,还有Antigravity 2.0 重构,隐形水印通用标准SynthID,AI Studio更新,AI智能眼镜等等等等。

这几件事看上去各管各的,但横着排开,Google在做同一件事:给Agent时代的每一个层级找一个最经济的解。

DeepMind 掌门人哈萨比斯在结束时说:"当我们回望这一刻,我想我们会意识到,我们正站在奇点的山脚下。这将是人类一个意义深远的时刻。"

这话听起来像修辞,但如果你把I/O 2026的发布横着排开看——模型、产品、生成、入口、硬件——Google确实在搭建某种完整的东西——一个尚未到来的时代做脚手架。

不过,脚手架和建筑毕竟是两回事。

Google在I/O上展示的所有能力——Spark的长程任务、Omni的跨模态生成、搜索的Agentic Coding——都是受控演示。当这些能力被数亿用户真正使用时,会发生什么?

Spark会不会在你不注意的时候把一封不该发的邮件发出去了?Omni生成的视频会不会在某个你不在意的细节上出现事实性错误?Agentic Search跑出来的代码,谁来验证?

技术从0.1%到99.9%的路上,最大的障碍从来不是能力不够,是出错之后怎么办。

Google这次专门花了时间讲Spark的安全设计——思考轨迹实时展示、敏感操作前征求许可——但这只是第一个版本。

真正的考验是,当Agent的权限大到可以替你发邮件、订会议、写代码的时候,一次误操作的代价也大到用户承受不起。

0.1%的人能容忍Agent犯错,99.9%的人不能。从前者到后者的距离,可比从0到0.1%远得多。

对了,可能还有些你早已经在各大媒体上提及的数据,我觉得这些不是重点,却是 Google 感敢于做上面这些事的最大底气。

Gemini App月活用户一年翻倍至9亿+,谷歌搜索的AI概览功能用户突破25亿、AI模式用户超10亿。