打开网易新闻 查看精彩图片

机器之心编辑部

今天凌晨,谷歌全面撕掉「克制」标签,向智能体时代转型了。

打开网易新闻 查看精彩图片

当地时间周二,谷歌 I/O 大会正式举行,今年一系列新产品的核心逻辑是「24 小时不停工作的智能体」。

看来 OpenClaw 开了头,以后每个人手上的 AI 都是要不停工作,谁也逃不掉。

Google CEO 桑达尔・皮查伊(Sundar Pichai)给出了一系列数字:当前,大模型行业的竞争已经从刷基准测试榜单全面转向了拼智能体工程落地。人们应用 AI 的最直观指标自然是 token 的消耗量,两年前人们通过谷歌的各种渠道每月消耗 9.7 万亿 token,去年这个数字增长到了480 万亿,而到了今天,这个数字又增长了七倍,达到了每月超过 3.2 千万亿。

打开网易新闻 查看精彩图片

谷歌表示,现在每月有超过 850 万开发者在使用 Gemini 构建新的应用程序和体验。如今的谷歌已有 13 款产品用户量均超过 10 亿,其中 5 款产品用户量超过 30 亿。

它们当然都是由 AI 驱动的。就说谷歌搜索的「AI 模式」,月活用户早已超过了 10 亿;Nano Banana 图像生成模型如今已生成了超过 500 亿张图像。

在大会上,谷歌宣布推出最新一代模型系列 Gemini 3.5,称其集前沿智能与行动能力于一身,代表着谷歌在构建更强大、更智能的智能体方面迈出了重要一步。

不过,目前首发的是轻量级产品Gemini 3.5 Flash,在智能体和编程方面具备前沿性能,尤其擅长处理复杂、长周期、能够产生现实价值的任务。

至于重量级版本 Gemini 3.5 Pro,谷歌说目前仍在开发中,仅在内部投入使用。皮查伊说新旗舰模型 Gemini 3.5 Pro 尚未准备就绪,现场观众都发出了叹息声。

他只好说「下个月一定」。

而 Gemini 3.5 Flash 即日起正式面向全球用户开放:

  • 普通用户可通过 Gemini App 和 Google 搜索中的 AI Mode 使用;
  • 开发者可通过开发平台 Google Antigravity,以及 Google AI Studio 和 Android Studio 中的 Gemini API 使用;
  • 企业则可通过 Gemini Enterprise Agent Platform 和 Gemini Enterprise 使用。

Gemini 3.5 Flash:具备面向智能体与编程的前沿性能

谷歌在博客中称,Gemini 3.5 Flash 在多个维度上的智能水平已经接近大型旗舰模型,同时保持了 Flash 系列一贯的「快」,是目前最强的智能体与编程模型。

数据显示,在 Terminal-Bench 2.1、GDPval-AA、MCP Atlas 等高难度编程和智能体基准测试中,得分分别为 76.2%、1656 Elo 和 83.6%,超过 Gemini 3.1 Pro 的表现。

在多模态理解方面,也同样处于领先水平,在 CharXiv Reasoning 上取得 84.2% 的成绩,按输出 token 速度计算,要比其他模型快 4 倍。

打开网易新闻 查看精彩图片

而在 Artificial Analysis 指数中,3.5 Flash 位于右上象限,以出色速度提供前沿级智能。而速度与性能之间的平衡,使其非常适合处理长周期智能体任务,与此同时,成本通常不到其他前沿模型的一半。

官方直称,「用户不必再在质量和延迟之间做取舍。」

打开网易新闻 查看精彩图片

结合更新后的开发者平台 Antigravity 执行框架后,3.5 Flash 可以成为部署协作式子智能体的强大引擎,用于大规模处理最具挑战性的任务。在人类监督下,它能够可靠执行多步骤工作流和编程任务,同时保持前沿性能。

官方展示了几个案例,可以来看一下:

借助 Antigravity,3.5 Flash 利用两个智能体对 AlphaZero 论文进行合成,并在 6 个小时内编写出了一款完全可玩的游戏:

打开网易新闻 查看精彩图片

3.5 Flash 利用子智能体在 Antigravity 中创建全新的城市景观:

打开网易新闻 查看精彩图片

此外,值得注意的是,谷歌还强化了 Gemini 3.5 系列模型的网络安全防护,官方称,开发遵循 Frontier Safety Framework,加强网络安全和 CBRN 相关安全防护,这意味着「它生成有害内容的可能性更低,同时也更不容易误拒安全问题。」

全家桶 AI 升级

基础模型的大版本更新之上,是一系列新产品的发布与更新。

首先引人关注的是一款名为 Spark 的全新 AI 智能体。Spark 基于 Gemini 3.5,并与包括 Gmail、Docs 和 Slides 在内的 Google Workspace 应用深度集成。用户可以教它执行各种任务,例如在 Gmail 中创建重要截止日期列表并发送给自己,或者在冗长的电子邮件往来中总结最新进展。

你还可以设置它执行重复性任务,例如每月自动查找信用卡账单中的隐藏费用。

此外,你还可以设置规则让它完成多个相互关联的任务,从而构建完整的工作流程。例如,你可以让 Spark 查看聊天记录和电子邮件中的会议记录,并在 Google 文档中生成精美的报告,同时还能自动撰写一封可以随报告一起发送的电子邮件。

打开网易新闻 查看精彩图片

这家科技巨头还宣布对其最大的摇钱树谷歌搜索进行有史以来最大规模的改造。引入 Gemini 3.5 Flash 之后,它将最新的 AI 模式功能直接添加到搜索框中,同时允许新的智能体在后台执行搜索任务。

现在输入搜索查询时,搜索框会自动扩展,为用户提供更多空间,方便他们使用自然语继续提问。新的 AI 搜索框还允许用户在搜索查询的同时上传图片、视频、文件和 Chrome 标签页以便 AI 参考。

更加进阶的是给搜索框派任务:用户可以向搜索智能体提供查询的所有相关信息,智能体随后将全天候扫描新闻网站、博客和社交媒体等信息来源,以查找最相关、最新的信息。如果用户正在寻找公寓,他们可以向搜索智能体输入所有住房要求,AI 会全天候扫描符合这些条件的新公寓列表。

这是谷歌的搜索框 25 年来的首次更新。

打开网易新闻 查看精彩图片

另外还有多模态的新能力。去年,Nano Banana 一波爆火,今年谷歌正式推出 Gemini Omni,这是一个将 Gemini 的推理能力与创作能力完美融合的全新系列,首个版本为 Gemini Omni Flash。作为新一代模型,Omni 能够基于任何形式的输入内容来生成万物 —— 首批支持的生成形式即为视频。

借助 Omni,你可以将图像、音频、视频及文本混合作为输入,进而生成基于 Gemini 现实世界知识的高质量视频。此外,你还可以通过对话交互的方式,轻松对视频进行编辑。

可以来看几个官方展示的案例。

输入提示词:把这座雕塑做成泡泡材质,之后就会得到下面这个内容:

打开网易新闻 查看精彩图片

还可以把你自己拍摄的一段视频交给 Omni,只要告诉它你想把画面里发生的事情改成什么样,就可以修改动作、加入新角色或新物体,甚至还可以把原本一个瞬间变成意想不到的场景。

比如下面这个案例,输入提示词:公寓里的灯光开始随着音乐同步亮起:

打开网易新闻 查看精彩图片

官方表示,目前Gemini Omni Flash 正在向全球 Google AI Plus、Pro 和 Ultra 订阅用户开放,可通过 Gemini App 和 Google Flow 使用。同时,从本周开始,还在 YouTube Shorts 和 YouTube Create App 上免费向用户推出。未来几周则会通过 API 向开发者和企业客户开放。

或许,本次大会上最能让人难忘的一句话来自哈萨比斯:「当我们回顾这段时期时,我想我们会意识到,我们当时正站在奇点的山脚下。」

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-5/#gemini-3-5-flash

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni/