作者|周雅
这边OpenAI持续12天的直播连续剧还没完结,那边谷歌已经坐不住了开始放大招,火药味溢出屏幕。
就在北京时间12月11日深夜23:30,谷歌正式发布Gemini 2.0,标志着其向能够独立完成复杂任务的AI系统迈出了雄心勃勃的一步。并且谷歌基于这次版本更新,一次性发布多个AI Agent(智能体)成果,包括:
用多模态理解现实世界的智能体「Project Astra」这次升级了技能;发布Project Mariner,一个建立在 Gemini 2.0之上的新智能体,可以帮忙浏览网页,并处理复杂任务;发布Jules,一个由 Gemini 2.0驱动的新型编码智能体,主要面向开发者;以及发布一些用于游戏、机器人、深度研究场景的智能体,用实力诠释什么叫做“要啥有啥”。除了智能体系列霸屏之外,谷歌此次还官宣了第六代TPU——Trillium正式面向客户开放。
Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)在寄语里直言:“Gemini 2.0是谷歌迄今为止最强大的模型,它能够构建新的AI智能体,从而让我们离构建通用助手的愿景更进一步。”桑达尔·皮查伊第一时间发了推文,向开发者安利这款模型。
Google 和 Alphabet 首席执行官 Sundar Pichai(桑达尔·皮查伊)的社交平台截图
不难看出,这次谷歌的强势出手,都是围绕一个主轴——AI智能体(Agent)。其实不止谷歌,很多AI巨头,尤其是以 OpenAI、Anthropic 和谷歌为首,一直是AI智能体的布道者。桑达尔·皮查伊在这次发布的致辞中,将AI智能体描述为“能够更多地了解你周围的世界、提前思考多个步骤、并在你的监督下代表你采取行动的模型”。
在这次发布前夕的媒体沟通会上,Google DeepMind Gemini产品管理总监Tulsee Doshi指出:“Google DeepMind研究AI智能体能力已经有很长一段时间了,我认为这个特定词在过去几个月已经有了新的含义。”以Project Astra为例,它的核心原则是拥有眼睛、耳朵和声音的智能体,可以识别并理解物理世界,并与人交互,帮人做事。
谈及背后逻辑,Google DeepMind Project Astra项目产品经理徐Bibo Xu在采访中指出,在技术发展方向上,谷歌正在平衡两个关键领域:一方面继续扩大模型规模,提升基础性能;另一方面,加强后期训练优化和推理技术的改进,尤其关注多模态能力的提升,希望让AI能更好地理解和处理各类信息。
Google DeepMind团队透露,明年初将推出Gemini 2.0系列模型的更多版本,大家很快就能见识到Gemini更强大的表现。
Gemini 2.0:为Agent而生
去年年底,Gemini 1.0问世。Gemini 1.0和1.5是谷歌第一个基于多模态的模型,它支持多模态和长上下文,可以理解文本、视频、图像、音频和代码中的信息,并处理更多信息。
一年后的今天,谷歌发布 Gemini 2.0 系列模型中的第一个版本:Gemini 2.0 Flash 体验版。在MMLU-Pro基准测试中,2.0 Flash的速度是1.5 Pro的两倍。
在功能方面,2.0 Flash 除了能够支持图片、视频和音频等多模态输入,它还可以支持多模态输出,例如可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音(TTS)音频。而且,它还可以原生调用 Google Search、代码执行以及第三方用户定义的函数等工具。
谷歌特别强调了对开发者的赋能。官网资料里提到,Gemini 2.0 Flash 现在可以通过谷歌的两款生成式AI产品—— Google AI Studio 和 Vertex AI 中的 Gemini API 获取,所有开发者均可使用「多模态输入」和「文本输出」,可使用原生文本转语音和图像的生成功能。该产品将于2025年1月份上市,到时候Gemini 2.0将迎来更多版本型号。
为了帮助开发者构建动态和交互式应用程序,谷歌还发布了最新Multimodal Live API,它具有实时音频、视频流输入、以及使用多个组合工具的能力。
谷歌强调,在接下来的几个月里,将把Gemini 2.0 引入Android Studio、Chrome DevTools、Firebase等平台。开发人员可以在Gemini Code Assist中注册使用Gemini 2.0 Flash,以便在流行的ide(如Visual Studio Code、IntelliJ、PyCharm等)中增强编码辅助功能。
而对于更广泛的个人用户,全球的 Gemini 用户可以通过在电脑端和移动端网页的模型下拉菜单中进行选择,来体验2.0 Flash 体验版,并且该版本将很快在 Gemini 移动应用中推出。2025年初,谷歌还会将 Gemini 2.0 扩展到更多产品中。
比如,Gemini 2.0 的高级推理能力将融入谷歌搜索中的AI概览(AI Overviews),以攻克更复杂的主题和多步骤问题,包括高等数学方程、多模态查询和编码。该功能本周已经进行了小范围测试,明年初将在更大范围推出。
Agent!Agent!还是Agent!
这次发布或许最重要的是,谷歌推出了一批基于 Gemini 2.0 架构的原型 AI智能体,展示了在该领域的野心。其中包括:
1、Project Astra大幅升级,用于探索未来通用AI助手能力的研究原型。
Project Astra的首次亮相是在今年5月份的Google I/O 大会上,当时科技行者在现场目睹了那次发布,在演示视频中,Project Astra通过手机摄像头能看见、能识别、能理解物理世界的周围环境,还能解答用户提问并提供即时反馈。当时在现场收获了一阵掌声。
而现在,基于 Gemini 2.0 版本的Project Astra,进行了一系列升级,谷歌对此又发了一支演示视频。
看起来,进化后的Project Astra与人交互更自然了,这次的更新具体而言覆盖了方方面面:
首先,它实现了更流畅的对话。演示视频中可见,Project Astra可以在多种语言之间进行自然对话,比如法语和泰米尔语,能理解不同口音和生僻单词。
其次,它能调用新工具。看起来是通过文本、语音、图像和视频回答问题并执行任务,并在需要时调用现有的谷歌应用,如搜索、地图和摄像头。“它融合了我们这个时代一些最强大的信息检索系统。”Bibo Xu在这次媒体沟通会上说道。
第三,它有了更强的记忆力。演示视频中,Project Astra 能够记住门禁密码,并且过了一段时间被问到时,还是能准确回忆起门禁密码。在整个测试过程中,即使经过多个不同场景的对话,Project Astra仍能准确调取之前存储的信息。
关于Project Astra的记忆能力,Bibo Xu在媒体沟通会上介绍,Project Astra 拥有两种记忆能力,一个是「图形记忆能力」,最多可以记住10分钟内看到的每一个画面像素;另一个是「对话记忆能力」,最多可以存储60段历史对话,并在需要时调用这些内容。
据悉,谷歌正在将Project Astra的功能植入自家产品中,比如Gemini app、智能眼镜等。而且即将开放给一批“受信任的测试人员”,测试 Project Astra 在原型智能眼镜上的表现。
2、除了Project Astra的升级之外,谷歌此次还发布一个新的智能体Project Mariner。
Project Mariner能够理解和推理浏览器页面中的信息(包括像素、文本、代码、图像和表单等),然后通过Chrome 扩展程序使用这些信息,为用户完成复杂任务。
谷歌指出,在 WebVoyager 基准测试(该测试针对智能体在端到端的真实世界网页任务的性能)中,Project Mariner 作为单个智能体设置实现了 83.5% 的工作效率,达到了最先进的水平。
从安全性的角度考虑,谷歌在博客中强调:“正在积极研究新型风险和应对措施,始终保持有人类的参与和监督。例如,Project Mariner 只能在浏览器上的活动标签页中键入、滚动或单击,而它在采取某些敏感操作(如购买某物)之前,会要求用户进行最终确认。”
3、面向开发者的编码智能体Jules。
谷歌这次发布的另一个新智能体,是专门面向开发者的编码智能体Jules,它可以直接集成到 GitHub 工作流程中来协助开发者工作。
对于开发者来说,比写代码更头疼的可能是找bug,而现在,可以将Python和Javascript编码任务交给Jules,Jules可以处理bug修复和其他耗时的任务,它可以有效修改多个文件,甚至拉取请求来直接将修复返回到GitHub,那么开发者就可以专注于其他任务。
4、更多“智能体们”,用于游戏、机器人、研究等更多领域。
除了上述“叫得上名字的”智能体之外,谷歌这次还演示了一些内置在Gemini 2.0的“智能体们”,用于游戏、机器人、研究等更多领域。
“Google DeepMind 一直以来都在利用游戏帮助AI模型更好地遵守规则、进行规划、并运用逻辑思维。”谷歌在官网资料里指出。比如在上周,谷歌推出了Genie 2,一个可以从单个图像创建无限多种可玩 3D 世界的 AI 模型。
而这次,谷歌基于Gemini 2.0 构建了一些智能体,专门用于游戏场景。演示视频中可见,该智能体可以根据屏幕上的实时画面,分析游戏情况,并提供下一步操作建议;此外,当被用户问到游戏知识时,它还能调用搜索,检索到相关知识并给出建议。
为了进一步探索智能体在游戏领域的应用,谷歌正在与Supercell等游戏开发团队合作,通过测试它们在《部落冲突》、《海岛奇兵》等各种游戏中的表现,来评估智能体们理解游戏规则、应对挑战的能力。
除了探索虚拟世界的智能体能力外,谷歌还将 Gemini 2.0 的空间推理能力应用于机器人领域,尝试让智能体在现实世界中提供帮助。不过谷歌方面指出,这项研究仍处于初期阶段。
此外,谷歌在 Gemini Advanced 中还引入了一项名为“深度研究(Deep Research)”的新代理功能,这是一个研究助手,可以深入研究复杂主题并为创建包含相关来源链接的报告。该功能自今日起对 Gemini Advanced 用户开放。
“思维链是我们思考如何构建模型的重要组成部分。”Tulsee Doshi在媒体采访中指出,比如AlphaCode和AlphaProof,这些都是能够展示深度思维和推理时间的真正强大模型,它们能够在代码和数学方面提升性能。
值得一提的是,谷歌这次依然特别强调了安全与责任的重要性,为此制定了“负责任的AI”原则,在数据处理、模型训练等各个环节都实施了严格的安全把关。
谷歌在对外发布资料里强调了秉持“负责任的AI”原则
Gemini 2.0背后的功臣:第六代Trillium
如此密集的AI智能体们,以及承载这些智能体的AI大模型们,给硬件基础设施带来了特殊挑战。因为这些模型需要巨大的计算能力和专门的硬件来有效地处理训练、微调和推理。
十多年前,谷歌开始开发定制的人工智能加速器——张量处理单元(TPU),它集成了软硬件、机器学习框架、以及大模型,以满足人工智能工作负载不断增长的需求,为多模态人工智能铺平道路。
桑达尔·皮查伊在寄语里把Gemini 2.0的进展一部分归功于TPU。他写道:“Gemini 2.0 的进展得益于我们所特有的长达 10 年全栈式 AI 创新研究的投入,它基于我们定制的硬件第六代 TPU Trillium 构建而成。TPU 为 Gemini 2.0 的训练和推理提供 100% 算力支持。”谷歌第六代TPU Trillium发布于今年5月份的Google I/O大会上。
而现在,谷歌宣布第六代 TPU Trillium正式面向客户开放。
相比于上一代,第六代Trillium训练成绩提高4倍以上,推理吞吐量提高3倍,能源效率提高67%,每个芯片的峰值计算性能提高了4.7倍,HBM (High Bandwidth Memory)容量翻倍,ICI (Interchip Interconnect)带宽增加一倍。
谷歌Cloud计算与人工智能基础设施副总裁Mark Lohmeyer在官方资料里指出,这些增强功能使Trillium能够在广泛的人工智能工作负载中脱颖而出,包括:扩展AI训练工作量、培训法学硕士包括密集和混合专家(MoE)模型、推理性能和集合调度、Embedding-intensive模型、提供培训和推理性价比等。
谷歌第六代 TPU Trillium
结合这次整场发布可以看出,谷歌正在努力平衡AI的加度和深度思考能力,希望找到一个既能快速响应、又能进行深度推理的平衡点,目标是将这些先进技术以最实用的方式带给用户和产业。这个过程虽然充满挑战,但也充满希望。
就像桑达尔·皮查伊在寄语里写道:“信息是人类进步的基石。26 年来,我们始终专注于我们的使命——整合全球信息,供大众使用,让人人受益。这也是我们持续拓展人工智能前沿领域的原因。我们整合来自世界各地的信息,并通过多样化的输出方式,让这些信息触手可及,真正为你所用。”
热门跟贴