OpenAI：俩二；Google：四个王|deepmind|openai|搜索引擎|智能助理|谷歌|软件安装包

又一次，OpenAI 身着华服表演了一个惊艳全场的魔术；但一转眼，Google 把秘籍指南和道具打了个包，来了个全员大派送。

果壳来到了 Google I/O 大会丨谷歌

是的，和 24 小时前那种仍然极具科幻感的炫示相比，今天在 Google I/O 开发者大会上的内容更能令每个普通人信服，我们早已身处这个 AI 时代之中——当然，按照 Google CEO 桑达尔·劈柴的说法，“一个 Gemini 的时代”。

所谓“Gemini 时代”始于一年前，2023 年的 I/O 大会上，劈柴公布了这个模型。在之后的一年中，Gemini 不温不火，也没少遭遇一些啼笑皆非的争议（有些的确很尴尬）。

一年过去了，“搜索”变了，“谷歌助理”变了，连万年不变的“办公全家桶”都变了。

“蒸馏”一个大模型

Google 说知道用户总“吵吵”别人家模型延迟小，成本低。于是这次，推出Gemini 1.5 Flash 轻量级模型，速度更快，效率更高，从而能覆盖更多的用户。

Google 表示，就其模型尺寸来说，它对大量信息进行多模态处理的表现，还算不错。1.5 Flash 擅长总结，聊天，凝练图像和视频，从长文档和表格中提取信息。

Gemini 1.5 Flash 通过 1.5 Pro“蒸馏”得来，“知识蒸馏”是一种模型压缩技术，让小模型学习大模型，将重要的知识和技能迁移过来。

说到 Gemini 1.5 Pro，随着今天的 I/O 大会已经完全开放，覆盖 150 个国家，35 个语言，用户只要订阅了Gemini Advanced，就能用上了。

Gemini 1.5 Pro（和1.5 Flash）支持 100 万 tokens 理解，是目前大模型服务中所能支持的最长上下文输入。

如果你不好理解，换算一下，大概是让它帮你总结1500 页文档，或 100 封邮件。年底，这个数字将直接翻番，增至 200 万。

很快，Gemini 1.5 Pro 就能处理一小时时长的视频，或者 30000 行的代码库了。它能充当“数据分析师”，从你上传的表格中“及时”发现洞察，构建自定义的可视化和图表。（你可以从桌面或 Google Drive 上传文件，你上传的文件是私有的，不会被用来训练模型。）

全面接入 Gemini 的“谷歌办公全家桶”，也将在未来几个月内陆续上线“智能问答”、“智能邮件回复”、“表格图像化总结”等新功能。

推理上的进步具体表现在，改进了对模型对具体（特定）用例响应的控制，遵循用户复杂和微妙的执行，比如调整一个 Chat Agent 的角色风格，用多个函数调用自动化工作流，让用户通过设置系统指令，掌控模型行为。

Google 说，（Gemini Advanced）用户很快就能创建“Gems”了，这个 Gems 就是自定义化的 Gemini——无论你是想找一个瑜伽教练，为你制定食谱的营养学家，还是微积分导师（或者你有什么其他“奇怪的想法”），搞一个 Gems 就行了。

无处不在的私人助理，正经的那种

Demis Hassabis，DeepMind 的 CEO，第一次登上 I/O 大会的舞台，预示了重要信息的登场——崭新的 Google 智能助理。（如果没有 OpenAI 前一天的“截胡”，那就更“崭新”了）

从马上能让用户创建“Gems”的那个例子中，可以见得，为了让大模型“落地”，变得更智能，Google 想要 AI 助理都变得更个人化。

”Gemini 理应是你的私人 AI assistant，对话式的，用户友好的，有帮助的。“在 Google I/O “露脸”好多年的 AI assistant，总终于有了新名号，Project Astra。

Google 会给助理赋予哪些能力？

语音交互

AI 的语调和说话风格可调整；双方可自然对话，你也可以毫不客气地打断 AI 讲话。

Gemini Live 功能将上线 Gemini 移动端。很快，你在 Live 对话时，也能打开摄像头，让 AI 实时观察到你的周围。

在此之前，Google 会把 Gemini 放到 Google Message 做测试，推送到部分国家，让 Gemini 好好学学各种“社交技巧和礼仪。”

“我妈喜欢海，我爸走两步就嫌烦，出行最好做高铁，因为恐高。他们隔天必吃一顿东北菜。入住酒店得干净，离交通近，性价比还得高。“就这样让 AI 生成一份三天海南出行计划，你说它懵不懵？

但现在的 Google 助理，除了具备精明的大脑（Gemini），还有强力的外部支持（这也是 Google 相比其他竞争者的最大优势之一，丰富的应用生态）。Google 将 Extensions（扩展功能）带入 Gemini，用 Gemini 打通并链接更多 Google 应用。

这一来，用户在 Google 应用和服务中的信息都能被调用，很多时候“只用一句简单的 prompt”，这些信息就能被链接起来。

这种共同协作让智能助理的规划能力成为可能。

记忆

在展示案例中，当使用者通过摄像头环顾办公室一周并持续提问交互之后，忽然提问“对了，我刚刚把眼镜放哪里？”助理准确地回答“放在一个苹果旁边。”而这个画面是大约一分钟前从摄像头中一闪而过的——我老板的助理可没有这么厉害。

搜图算什么，我能搜视频

Google 搜索的最大进化，被称为 AI Overviews，这个功能将“简化”用户提问，拥有更强大的多步推理能力——先将一个复杂问题，拆解成多个简单问题，再将简单问题拆解成多个关键词——反馈给用户的页面中，将是高度格式化的解释、简洁实用的行动指引、直接引导后续行为的链接等。

未来的搜索产品逻辑可能会被彻底颠覆，人们不需要一个单独的“搜索引擎”。未来 search 功能，也许会成为 Agent 功能的子集，比如让 Agent 做旅行计划，就会涉及到去 Google Maps 上搜饭店和评价。再进一步，想一下上述和 Agent 可能产生的各种互动，本质是都会是一种基于 AI 增强的搜索。

大会上还展示了应用内的搜索增强，名为 Ask Photo，比如在 Google Photo 中搜索“自己女儿学游泳的完整经历”，反馈的一些照片排列，能让每一个老父亲热泪盈眶，

远胜过搜图的另一种体验，Google 将支持通过视频提问的搜索，联想到修理师傅问你“到底是水管哪里漏了？”而你支支吾吾说不出，或是各种运动时的动作纠正，有些时候会比语言描述得更清。

模型越大，责任越大

每次聊到“AI 责任”，Google 可就精神了。

一款名叫 SynthID 的工具能很好地应对如今 AI 生成泛滥的问题。过去一年中，SynthID 可以识别 AI 生成的图片和声音，从今开始，还可以针对 AI 生成的文字和视频进行鉴别。基于这款工具和相应技术，Google 已经开始推进和高校与研究院所的合作，以应对 AI 生成内容在严肃科研领域被滥用的现象。

如果你还是在校学习中，这下慌不慌？

过去这一年，OpenAI 被各种“炸裂”或“赢麻了”，但Google 却在这次大会上说自己才“刚开始”，而我们，看热闹怎么会嫌事大？

作者：沈知涵

编辑：malt

如无特别标注，全文图片均来自谷歌

果壳AI组出品