打开网易新闻 查看精彩图片

用多模态夺回主场,用生态掩护追赶。

作者 /企鹅

观看今年的Google I/O开发者大会后,整场发布会的脉络可以概括为一句话:在哪些战场谷歌正在领跑,又有哪些战场谷歌还在追赶。

名义上,I/O是一场面向开发者的技术盛会。但过去几年里,它已经实质上变成了谷歌新一代消费级AI产品的展示橱窗。同时,谷歌需要用它来回应OpenAI和Anthropic带来的竞争压力。

今年的语境也格外微妙。本届I/O召开之前,谷歌面对的是一个更尖锐的版本问题:它的AI是否还有竞争力?

一方面,谷歌在多模态生成和消费级用户增长上节节进逼;另一方面,在当前最热的 AI 编码战线上,它仍处于追赶位置。

就在大会前的一个多月里,Anthropic在4月初发布了Claude Mythos限定预览;OpenAI紧接着在4月下旬推出GPT-5.5作为回击。

两家头部对手把基准线抬到了一个新高度,而Gemini的新版本要在这两个参照系之间证明自己的位置。在这样的背景下,一次“称职的Gemini更新”已经不再是新闻——它只是留在牌桌上的入场券。

在谷歌密集的发布中,颇受关注的产品是全新的视频生成模型Gemini Omni。

它的思路延续了去年大火的图像模型Nano Banana:以Gemini作为底层基础,解决了模型在内容创作和反复编辑时缺乏一致性的“老问题”,并把这套成功经验从图片搬到了视频上。

而在谷歌最核心的搜索业务上,他们推出了全新的“Information Agents(信息智能体)”。它能全天24小时帮你盯着租房信息或者新品发布这类动态,一有消息就主动汇报。这个功能今年夏天就会推给付费用户。

谷歌步步紧逼的另一个底气是用户规模。

Gemini应用的月活跃用户现在已经到了9亿。虽然这跟OpenAI今年2月公布的ChatGPT“9亿周活”还差一截。但Gemini 一年内从4亿翻倍到9亿,已经足够说明谷歌在消费侧的追赶力度。

此外这次Gemini还上了个叫“Daily Brief(每日摘要)”的个性化新功能。

它的产品形态跟OpenAI去年9月推出的ChatGPT Pulse在结构上有些接近。而Pulse据报道在去年12月OpenAI进入"Code Red"状态时已被内部“边缘化”。两家巨头在产品上这种互相摸索、踩着时间差出牌的现象,就是这轮AI大战真实的缩影。

不过,在开发者最关心的写代码这件事情上,谷歌的还是追赶者的姿态。

就在几个月前,OpenAI还曾因谷歌Gemini 3的强大能力而拉响内部警报。然而,行业格局的演变异常迅速。今年4月,Anthropic推出了主打网络安全防御的限定版模型Mythos,进一步扩大了其在代码领域的领先优势。由于该模型能力过强且伴随潜在风险,Anthropic并未将其向公众开放,仅定向提供给Project Glasswing中的亚马逊、苹果、微软等少数头部合作伙伴。

随着OpenAI将战略重心逐渐向企业级市场倾斜,在代码这条战线上,谷歌与OpenAI实质上都已成为Anthropic的追赶者。面对这一局面,谷歌在本届I/O大会上的应对显得相对保守:发布代码智能体的新版桌面端Antigravity 2.0,并同步推出全新的命令行工具,敦促老用户尽快迁移。这并非底层技术的重大突破,而更像是承压之下对现有产品线的一次梳理与瘦身。

明白了这层底色,再重新审视本届I/O大会上密集的Gemini更新,便能看出这绝不仅仅是一份产品清单,而是谷歌面对2026年AI战局,向外界交出的一份真实态势评估。

01.

从4亿到9亿用户

CEO桑达尔·皮查伊(Sundar Pichai)按惯例率先登台。他略去了冗长的寒暄,直接抛出了一组数据:谷歌目前拥有13款用户破10亿的产品,其中5款更是超过30亿;Gemini应用的月活跃用户从去年I/O的4亿翻倍至如今的9亿以上,覆盖230多个国家和地区,支持70多种语言。皮查伊表示:“公司转向AI优先已满十年,我们依然认为,AI是推进公司使命、改善人类生活最深刻的方式。”

这种增长速度颇具意味。

一年前,科技界还在热议ChatGPT是否会颠覆谷歌搜索;而今天,Gemini应用9亿的月活与ChatGPT今年2月公布的“9亿周活”已然站上同一量级(第三方估算ChatGPT月活大概率已超10亿)。

皮查伊提到,上季度谷歌搜索的查询量创下历史新高。AI Overviews等功能并未削弱用户的搜索习惯,反而促使人们提出更多、更复杂的问题。谷歌正将AI深度嵌入其庞大的产品矩阵,借此将传统的分发优势转化为新的技术护城河。

在大会的热场环节,谷歌展示了一款名为“Jellectronica”的现场互动装置:AI实时追踪蒙特雷湾水族馆画面中的水母运动轨迹,并将其转化为控制信号,驱动DeepMind的Lyria Realtime模型实时生成电子乐。这一细节也折射出谷歌对2026年AI产品形态的设想——AI不仅是工具,更是创作的协作者。

而在主题演讲的核心模块,谷歌发布了两款重磅模型:Gemini 3.5 Flash与Gemini Omni。

Gemini 3.5 Flash被定位为谷歌目前“最强的智能体与代码模型”。官方表示,该模型在前沿任务的性能表现已达顶尖水准,不仅速度是同类前沿模型的近四倍,成本也通常不到竞品的一半。即日起,它将作为多项谷歌服务的默认模型正式上线。

谷歌强调,3.5系列追求的不再是单纯的参数堆叠,而是要在构建高阶智能体(Agent)上迈出关键一步,重点优化了代码智能体、长周期任务(long-horizon tasks)以及真实世界工作流这三大方向。

这些背后离不开庞大的算力支撑。

皮查伊披露了几个反映规模的数据:谷歌模型API目前每分钟处理约190亿个Token;而内部使用的代码智能体Antigravity,其每日处理的Token量已从今年3月的约5000亿激增至目前的逾3万亿。为了应对这种呈指数级增长的算力需求,谷歌将2026年的资本支出规模提升至约1800亿至1900亿美元,这大约是2022年(310亿美元)的六倍。

资金大量涌入了自研的TPU张量处理器。今年新发布的第八代TPU首次采用双芯片架构,分别针对模型训练(TPU 8t)和推理(TPU 8i)进行了专项优化。更低的延迟与更低的推理成本,将真正使得AI能够无处不在。

另一场重头戏是Gemini Omni的亮相。

Google DeepMind CEO戴密斯·哈萨比斯(Demis Hassabis)登台介绍了这款多模态模型,官方将其描述为“能够从任何输入创造任何输出”。其首发版本Gemini Omni Flash即日起向Google AI Plus、Pro与Ultra订阅用户开放,并将通过YouTube Shorts和YouTube Create应用免费提供给所有创作者。

在AI视频生成赛道竞争白热化的当下——字节跳动的Seedance 2.0曾在公开评测中长期领跑,而阿里巴巴4月匿名提交的HappyHorse-1.0在Artificial Analysis评测榜上实现反超并稳居榜首——Omni打出了自己的差异化策略。

它并没有选择在原始画质上与对手拼杀,而是将“对话式编辑”做到了极致。用户在给出提示词或初始素材后,可直接通过自然语言对视频中的角色、背景、动作进行精细修改。这一逻辑沿用了去年备受瞩目的图像模型Nano Banana的成功经验,并成功将其平移到了视频领域。

谷歌DeepMind产品管理总监妮可·布里赫托娃(Nicole Brichtova)在接受TechCrunch采访时透露,目前Flash版本的视频输出被限制在10秒以内。但她强调,这只是“出于部署考量的决策,而非模型本身存在限制”,旨在算力紧张的当下确保更多用户能够体验。哈萨比斯也表示,Omni的长期愿景绝不仅限于视频生成。

值得一提的是,Omni在内容真实性保障上延续了谷歌的SynthID水印技术。

据谷歌透露,SynthID迄今已为超过1000亿张AI生成的图像和视频,以及总时长达6万年的音频打上了隐形水印。

目前,OpenAI、ElevenLabs和Kakao等公司也已开始采用这一技术标准。接下来,SynthID的验证能力将进一步整合至Google搜索(通过Circle to Search功能)和Chrome浏览器(右键点击即可验证)。随着生成式AI的产出愈发逼真,内容溯源与标记体系正逐渐成为整个行业的关键基础设施。

02.

Gemini Spark和搜索变革

如果说前面发布的模型属于“基础设施层”,那么Gemini Spark的亮相,则标志着谷歌的产品形态正从“工具型AI”跨向“代理型AI”。

官方将Spark定义为“一个全天候协助处理数字生活的个人AI智能体”。它运行在Gemini 3.5 Flash模型之上,底层由谷歌的Antigravity代理平台支撑。这套“代理优先”的开发者环境,早在此前随Gemini 3发布时就已亮相。

与OpenAI此前推出的ChatGPT agent(前身为Operator)等竞品不同,Spark摆脱了对本地设备的依赖。它不需要手机解锁或电脑保持开机,而是直接运行在Google Cloud的专属虚拟机中,实现24小时不间断的后台运行。即使用户离线,任务依然可以继续推进。

它的能力非常具体。根据现场演示与媒体报道,Spark开箱即用了Gmail、Google Docs、Sheets和Slides等Workspace全家桶应用,同时通过MCP(Model Context Protocol)协议接入了Canva、OpenTable、Instacart等第三方服务。具体来说,它可以做到:

自动扫描每月的信用卡账单,揪出新出现或隐蔽的订阅扣费; 持续监控学校发来的邮件,自动提取重要的截止日期,并每天向家长发送摘要; 将散落在Gmail和Docs中的会议笔记整理成一份干净的文档,并草拟跟进邮件; 用户还可以“教”它学习自定义技能,这相当于用自然语言对其进行编程。

目前处于Beta阶段的Spark将率先向受信测试者和Google AI Ultra订阅用户开放,并在下周开始大规模推送。

值得注意的是,谷歌同步调整了AI Ultra套餐的定价策略:原本单一定价250美元/月的Ultra计划被拆分为两档。新增了一档100美元/月的中级Ultra(这也是使用Gemini Spark的入门门槛);原有的顶级方案则降至200美元/月(包含更高的20倍Pro使用量和Project Genie等额外特性)。

Spark在两档Ultra中均可使用。这表明谷歌正在双管齐下:一边将高端订阅向下延伸以扩大付费用户基数,一边将高级智能体作为核心的差异化卖点。

Spark的发布之所以备受关注,更深层的原因在于它代表了一种范式的转移。在此之前,绝大多数用户仍将Gemini视为一个“非常聪明的聊天框”。

但Spark打破了这一局限,它不再被动等待提问,而是主动、并行地在后台处理多线任务,仅在需要用户决策时发出提醒。这种“主动型AI”的体验,或将彻底重塑人们对个人生产力软件的预期。

除了AI战略,还有搜索业务这个不容有失的主战场。在今年的I/O大会上,谷歌为Search带来了用他们自己的话来说“25年来最大的升级”

最直观的变化体现在搜索框本身。谷歌正式发布了全新的AI驱动“智能搜索框”。它打破了传统固定大小的限制,会随着用户的输入动态扩展,提供足够的空间来描述复杂需求。同时,AI驱动的查询建议也超越了传统的字词补全,它会尝试预测用户的真实意图,主动引导你把问题“问得更准确”。

而且这个搜索框天然支持多模态输入。用户可以上传图片、文件、视频,甚至直接将Chrome浏览器的标签页作为输入素材“喂”给搜索引擎。

可以说,几十年来,搜索框一直是数亿人事实上的“互联网首页”。而如今,这个超级界面被彻底重塑了。

谷歌还宣布了AI Mode的进一步迭代。自去年I/O推出以来,AI Mode仅用一年时间就突破了10亿月活用户,查询量自上线起每季度都保持翻倍以上的增长。如今,全球范围内的AI Mode已全面接入Gemini 3.5 Flash驱动。同时,AI Overviews(AI概览)与AI Mode之间的过渡也变得更加无缝:用户只需点击“显示更多”,就能从概览直接切入完整的AI对话模式。

Search业务中最具变革性的部分,是“Information Agents(信息智能体)”的引入。这些智能体可以在后台24小时不间断运行,根据用户设定的关注点,持续监控全网的博客、新闻、社交媒体贴文,并结合谷歌自家的实时金融、购物、体育数据。一旦情况发生变化,它们不仅会生成综合摘要,还支持用户直接采取后续行动。

谷歌在现场给出的场景非常具体:如果用户正在找房子,只需将具体要求告诉智能体,后者便会持续扫描各类房源网站,一旦符合条件的房源上线就会立即发出通知;如果用户是球鞋迷,希望第一时间获知喜欢的球员是否发布了新联名款,智能体同样可以代劳盯着。信息智能体将于今夏率先向美国的Google AI Pro和Ultra订阅者开放。

此外,搜索还将具备“Generative UI(生成式UI)”能力。对于策划婚礼、规划搬家等需要长期推进的任务,它可以构建定制化的仪表盘、追踪器甚至是“迷你应用”。这相当于在搜索结果页上,即时为每个用户的特定任务生成了一个专属的工作界面。

谷歌还在大幅扩展其Personal Intelligence(个性化智能)版图。这项功能允许用户安全地接入Gmail、Google Photos以及未来的Google Calendar。这意味着AI将不仅仅局限于掌握“世界知识”,而是能真正理解用户的“个人上下文”。

即日起,Personal Intelligence将在近200个国家和地区、以98种语言向AI Mode用户免费开放。

但这些信息智能体以及不断扩张的AI Overviews,对在线媒体生态的影响并不容乐观。许多新闻网站本就苦于AI摘要功能造成的流量流失,如果未来智能体可以直接代替用户阅读整个互联网,内容发布者的处境只会雪上加霜。这是一个谷歌至今仍未给出明确答案的结构性难题。

03.

从穿戴设备到跨平台购物的底牌

按照今年I/O的节奏安排,Android 17等系统层面的更新早在一周前的“Android Show I/O Edition”上便已全部公布。因此,主舞台的硬件惊喜被刻意留到了最后——Android XR阵营的智能眼镜(Intelligent Eyewear)。

谷歌联手三星,正式推出了首批面向消费市场的Android XR智能眼镜,合作方包括美国平价时尚眼镜品牌Warby Parker和韩国前卫眼镜品牌Gentle Monster。

各方分工极其清晰:技术底座由谷歌(操作系统与AI)和三星(硬件平台)共同提供,外观与时尚属性则交由眼镜品牌操刀。这批眼镜统一搭载Android XR平台,由Gemini提供核心AI能力。其功能涵盖了实时翻译(音频翻译甚至能匹配说话人的音色)、视野内文字翻译、Google Maps步行导航、通知摘要、日历管理以及基于位置的上下文推荐(例如沿途的咖啡店)。

在现场演示中,工作人员戴着Gentle Monster太阳镜,仅凭语音询问“我和朋友约在哪里见面”,眼镜便立即给出了答案;另一段演示则展示了她直接通过眼镜在咖啡店下单并支付小费。

最有趣的细节来自大模型与硬件的联动:在I/O的“年度大合影”环节,演讲者佩戴眼镜对着观众席抓拍了一张照片,随即通过Gemini调用Nano Banana,在画面背景里加上了一个写着“I/O”标志的飞艇。处理完成后,预览图被无缝推送到她手腕配对的Pixel Watch上显示。从眼镜采集、模型生成到手表预览,三端协同完成了一次完整的硬件示范。

目前,Warby Parker与Gentle Monster已在各自官网上线了“Intelligent Eyewear”专属页面并接受预购登记,产品将于今年秋季上市。

值得注意的是,原本被外界期待的另一位合作伙伴——XREAL及其Project Aura并未出现在主舞台上,Android Central的现场记者表示,希望能在大会展区获得相关产品的上手体验。智能眼镜并非全新概念,但Meta的Ray-Ban系列已经验证了“AI+时尚眼镜”的商业路径。

谷歌此次入局,凭借的是Android XR生态的开放性与Gemini模型的能力。能否在Meta已有的优势上打开局面,将是接下来一年值得观察的硬件赛道。

硬件生态落地的同时,谷歌的软件护城河也在向全场景蔓延。除了搜索和模型,Workspace全家桶也获得了一轮“语音化、对话化”的全面升级。

新推出的Docs Live让用户可以通过语音“把脑海中所有零碎想法倒出来”,随后由AI自动整理成结构化文档。Google Keep中的语音AI也允许用户通过对话创建笔记。邮箱端则引入了全新的Gmail Live邮件搜索方式,允许用户用自然语言查询邮箱内容;同时AI Inbox功能也将下沉到AI Plus与AI Pro的订阅层级。

谷歌还宣布推出一款名为Google Pics的新设计工具,定位为面向普通用户的轻量级AI设计创作平台。在Tom's Guide的现场报道中,这被认为是谷歌延续Nano Banana技术思路、向Canva等设计工具发起挑战的一次尝试。视频内容端的最大新闻则是Ask YouTube的上线,这是一个“全新重新构想”的对话式搜索体验。

用户可以用自然语言询问视频内容,AI会在浩瀚的视频库中检索出符合需求的片段,甚至可以跨视频聚合信息。对于YouTube这种以视频为载体、传统上难以精准搜索的平台来说,这是一次潜在的体验革命。

更进一步,谷歌借着这轮AI升级直接将触手伸向了电子商务领域。

他们在I/O上推出了“通用购物车”(Universal Cart)——一个跨平台的智能购物车功能,用户可以从Search、Gemini、YouTube、Gmail等任意接触点把商品加入同一个购物车。Tom's Guide在现场看到的演示则揭示了更深的野心:当用户在购物车中添加电脑配件时,AI能够精准识别出用户在攒一台PC,于是会自动监控价格、提示硬件兼容性、推荐其他必要的配件,甚至支持代为下单。

“代理式电商”曾是过去两年许多创业公司试图跑通的方向,现在,谷歌正借助其庞大的用户规模将其一次性铺开。

04.

从AI for Science到生态护城河

尽管消费侧的产品占据了绝大多数时间,但本届I/O主舞台的压轴时段依然留给了科学。

哈萨比斯在台上回顾了DeepMind一直以来“用AI推动科学”的传统,从AlphaFold蛋白质结构预测,一路引出了全新发布的Gemini for Science套件。这是一组旨在加速科研工作流的工具集:涵盖自动化日常杂务、把想法快速变成可用代码,以及运行复杂的AI模拟。

其中较具代表性的成果是AI天气预报模型WeatherNext。现场视频展示了它在2025年飓风梅丽莎登陆牙买加之前的预测表现:相比传统数值模型,WeatherNext的预测更准确、提前预警时间更长,为美国国家飓风中心提供了关键支持。

还宣布了Co-Scientist,一款基于Gemini的协作型AI科研伙伴,它能帮助研究人员加速科学突破。此外他还介绍了Project Genie:这套“世界模型”框架已与谷歌街景近20年的视觉数据相连,可以基于现实位置创建新的虚拟世界,用于训练AI智能体或构建沉浸式应用。

在演讲尾声,重申了那个他过去一年多次提到的判断:“AGI(通用人工智能)已经近在眼前。如果构建得当,它能够促进人类福祉与繁荣,超出我们最狂野的想象。”一年前还在被边缘化的谷歌AI业务,如今已成为整个公司的核心驱动。紧接着是关于AI安全的承诺,再次邀请专家测试CodeMender,这款由Google DeepMind在2025年10月发布的AI安全代理,能够自动发现代码库中的漏洞并生成补丁,过去半年内已向开源项目提交了72个安全修复(部分项目代码量达450万行)。这也正面回应了外界对智能体系统潜在风险的担忧。

从前沿科学的星辰大海回到商业战场的现实,回看整场I/O,我们能清晰地梳理出谷歌在2026年打出的四张底牌与护城河逻辑。

第一,模型层的产品化与商品化并行。

Gemini 3.5 Flash把“前沿性能+极致速度+友好价格”作为定位,Gemini Omni则在多模态这一最贵的赛道上抢占用户心智。两者共同支撑起一个调整后的付费订阅梯度:AI Plus、AI Pro以及拆分为100美元和200美元两档的AI Ultra。

其次智能体范式全面取代单点工具范式。

无论是Gemini Spark、Search中的信息智能体,还是Workspace中的Docs Live、Universal Cart中的购物代理,背后都是同一个押注:未来的应用形态不再是“打开App输入指令”,而是AI主动在后台执行任务。Android Halo则会在Android状态栏中实时显示智能体的工作进度,把代理工作彻底“可视化”成系统级体验。

还有分发优势的“AI化”。

Search、Chrome、YouTube、Gmail、Android、Maps,谷歌的这些产品都拥有数十亿用户。当AI被深度嵌入其中后,竞争对手很难仅凭模型上的些许优势就把用户迁移走。OpenAI、Anthropic这类公司即便拥有更优秀的模型,也要面对一个现实:用户在哪里,AI体验就在哪里。

最后是硬件作为新触点。

Android XR智能眼镜代表了“AI从屏幕走入物理世界”的下一步。它不必立即颠覆智能手机,但提供了一个比手机更贴身的AI入口。

透过这套森严的生态护城河再来审视这场大会,我们会发现它在性质上已经发生了根本的转变:这究竟是一场开发者大会,还是消费者大会?

回看几年前的I/O,开发者们仍然在热烈讨论Material Design、Android Wear、Android Things等围绕Android生态的话题。而2026年的I/O,主舞台上几乎听不到Android这个词。

「新物种」发现今年的I/O主题演讲几乎全是Gemini公告,最小的一点硬件惊喜,就只剩Android XR音频眼镜了。

这或许正是Google I/O演变到今天的一个写照:它不再仅仅是面向开发者的技术大会,而越来越像一个面向所有人的“AI时代愿景发布会”。台上展示的不再是SDK或API的更新,而是关于工作、购物、获取信息与认知世界方式的图景。

正如皮查伊在演讲中所说:“我们转向AI优先已经10年了。”十年过去,谷歌如今想要证明的不只是它能做出多好的模型,更是它能让AI抵达每一个人的日常生活。在与OpenAI、Anthropic等竞争对手的赛跑中,这场I/O给出的答卷可能不是最炫目的,但是系统性最强、规模感最足的一份。

下一年的I/O会发生什么?没有人能确定。但可以肯定的是,“AI一切”的故事才刚刚翻开新的一页。

排版运营 / Teagan

- End -

打开网易新闻 查看精彩图片