Agent 已然成为了科技公司在 AI 领域的新战场。
当地时间12月11日,谷歌突然发布了Gemini 2.0,这款全新的AI模型不仅能够独立完成复杂任务,还首次支持原生图像生成和多语言音频功能。
(来源:谷歌)
同一天,OpenAI的“十二连发”活动进行到了第五天。不过这次直播略显平淡,只是演示了ChatGPT与苹果 Apple Intelligence 的整合。
相比之下,谷歌的发布可谓是“量大管饱”,抢尽了风头。
在新模型的加持下,谷歌一口气推出了三款 AI Agent(智能体)产品,标志着谷歌在与OpenAI、Anthropic和微软的竞争中迈出了重要一步。
(来源:谷歌博客、谷歌翻译)
谷歌DeepMind的CEO德米斯·哈萨比斯(Demis Hassabis)表示:“Gemini 2.0 实际上已经达到了目前 Gemini 1.5 Pro 的水平。这意味着在保持相同成本效率、性能效率和速度的同时,整体性能提升了一个档次。这个成果让我们非常满意。”
目前谷歌公布的是实验版Gemini 2.0 Flash。在官方数据对比中,新模型在编程、数学、推理、图像、视频等领域的处理能力均超越了Gemini 1.5 Pro,性能提升有目共睹。
图 | Gemini 2.0 Flash 的测试成绩(来源:谷歌)
谷歌 Gemini 产品负责人图尔西·多希(Tulsee Doshi)在新闻发布会上介绍说:“我们知道 Flash 因其在速度和性能上的平衡而深受开发者欢迎。新版本不仅保持了同样的快速响应能力,而且功能更加强大。”
据悉,这次性能的提升并没有以牺牲功能为代价,新版本在运行速度上甚至比前代 Flash 模型快了一倍,同时在代码编写和图像分析等方面都有显著提升。
Gemini 2.0 的最大亮点是其“代理人工智能”(Agentic AI)功能。这种 AI 系统不再仅仅是被动地回答问题,而是能够理解复杂的上下文,提前规划多个步骤,并在用户授权下采取行动。
谷歌推出了三个基于 Gemini 2.0 架构的 AI 智能体原型,分别是 Project Astra、Project Mariner 和Jules,每一个都针对特定应用场景进行了优化。
此外,谷歌还演示了 AI 智能体如何跟玩家合作打游戏。在《部落冲突》的演示中,AI 可以介绍兵种特性并给出组合建议。它还能在 Reddit 上检索信息,为玩家提供角色选择建议。玩家全程都是用对话的形式与智能体互动的。
图 | 玩家与 AI 智能体互动(来源:谷歌)
通用 AI 助手 Project Astra
Project Astra 是一个升级版的通用 AI 助手,它能够在多种语言之间自如切换,使用多种语言和混合语言进行交谈,同时访问谷歌搜索、地图等工具并保持对话语境记忆。
DeepMind 的集团产品经理比博·徐(Bibo Xu,音译)展示了它的能力。Project Astra现在可以在会话中保持长达 10 分钟的记忆,并能记住过去与用户的对话,从而提供更有帮助、更个性化的体验。
同时,它处理语言的速度可以与人类在日常对话中的处理速度相媲美。
在实际演示中,该系统展现出了令人印象深刻的语言切换能力,并能够实时通过谷歌搜索、地图和摄像头获取信息。
(来源:谷歌)
浏览器操作工具 Project Mariner
为了让 AI 智能体操作电脑,谷歌推出了 Project Mariner。
谷歌表示,Project Mariner 是使用 Gemini 2.0 构建的早期研究原型,旨在从浏览器开始探索人机交互的未来。作为研究原型,它能够理解和推理浏览器屏幕上的信息,包括像素和文本、代码、图像和表单等网络元素,然后通过实验性的 Chrome 扩展程序完成任务。
(来源:谷歌)
Project Mariner 和 Anthropic 此前推出的 AI 控制电脑(Computer use)功能类似,只不过目前它仅限于操作 Chrome 浏览器、移动屏幕上的光标、点击按钮和填写表格,能够像人类一样使用和浏览网站。
作为 Chrome 浏览器扩展程序,Project Mariner 在 WebVoyager 单一代理基准测试中取得了 83.5%的成功率,这个成绩在自主网页导航领域创下了新纪录。
谷歌实验室产品管理总监杰克琳·孔泽尔曼(Jaclyn Konzelmann)解释说:“Project Mariner 是一个早期研究原型,探索了 AI 智能体在网页浏览和行动执行方面的能力。”
谷歌表示,为了安全、负责地构建 Project Mariner 系统,他们正在积极研究新型风险和缓解措施,同时让人类参与其中。
例如,Project Mariner 只能在浏览器的活动选项卡中输入、滚动或点击,并且它会在执行某些敏感操作(例如购买某物)之前要求用户进行最终确认。
(来源:谷歌)
编程助手Jules
谷歌还针对软件开发者推出了 Jules。这个基于 Gemini 2.0 平台构建的 AI 编程助手可以在开发者休息时自主修复软件错误并准备代码更改。
与传统的编程助手不同,Jules 能够作为自主代理直接集成到 GitHub 的工作流程系统中,分析复杂的代码库,跨多个文件实施修复,并准备详细的拉取请求(pull requests),而无需持续的人工监督。
(来源:谷歌)
谷歌特别强调了 Jules 的安全特性:“开发者始终掌控着整个过程。Jules 会在采取行动前提出建议方案,用户可以监控其编写代码的过程。”它在合并任何更改之前都需要明确的批准,确保开发过程始终处于人工监督之下。
谷歌指出,Jules 的发布具有重要的战略意义。在软件开发行业面临持续的人才短缺的背景下,自动化编程助手变得越来越重要。
市场研究公司高德纳(Gartner)预测,到 2028 年,75%的新应用程序开发将涉及 AI 辅助编程。在美国劳伦斯伯克利国家实验室的早期测试中,研究人员使用 Jules 和相关谷歌 AI 工具,将某些分析任务的时间从一周缩短到了几分钟。
目前 Jules 仅开放给可信赖测试人员,并将在 2025 年初向其他感兴趣的开发者开放。
(来源:谷歌)
迈向 AI 智能体时代
谷歌的愿景是在 2025 年开启真正的“AI 智能体时代”,而Gemini 2.0将成为这一愿景的基础。
Gemini 2.0 在音频和图像生成方面取得了巨大突破。系统可以生成和修改图像,处理照片和视频,回答相关问题,还能用不同口音和语言的声音朗读文本。你可以要求它放慢或加快语速,甚至可以让它像海盗一样说话。
为了防止滥用,谷歌使用了 SynthID 技术对所有生成的音频和图像进行水印标记。
此外,谷歌正式向云服务客户开放了第六代张量处理单元(TPU)Trillium 芯片,并在单个网络结构中部署了超过 10 万枚芯片。Gemini 2.0 模型就是在 Trillium 上训练的。
谷歌还推出了多模态实时 API(Multimodal Live API),帮助开发者构建具有实时音频和视频流功能的应用程序。这个 API 支持来自摄像头或屏幕的音频和视频输入,能够处理包括打断在内的自然对话模式,这与 OpenAI 的实时 API 十分相似。
(来源:谷歌)
哈萨比斯表示,除了性能提升外,模型效率和速度的进步同样令人兴奋。谷歌计划将 Gemini 2.0 广泛应用于其产品生态系统中,包括谷歌搜索的 AI 概览功能(目前覆盖 10 亿用户)、Gemini 应用程序以及 Workspace 等办公套件,旨在为用户提供更统一、更强大的 AI 体验。
一年前,当谷歌推出第一代 Gemini 时,AI 领域还主要由能进行智能对话但难以处理现实世界任务的聊天机器人主导。如今,随着 AI 智能体领域迎来了更多参与者,它们开始迈出走向自主的第一步,整个行业似乎又站在了一个新的拐点上。
显然,现在的问题不再是 AI 能否理解我们,而是我们是否准备好让 AI 代表我们做出决策。
参考资料:
https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/
https://venturebeat.com/ai/google-gemini-2-0-could-this-be-the-beginning-of-truly-autonomous-ai/
https://techcrunch.com/2024/12/11/gemini-2-0-googles-newest-flagship-ai-can-generate-text-images-and-speech/
https://deepmind.google/technologies/project-mariner/
热门跟贴