谷歌发布Gemini 2.0，能搜网页、写代码、教你打游戏|chrome|代码|应用程序|知名企业|网络浏览器|谷歌

Agent 已然成为了科技公司在 AI 领域的新战场。

当地时间12月11日，谷歌突然发布了Gemini 2.0，这款全新的AI模型不仅能够独立完成复杂任务，还首次支持原生图像生成和多语言音频功能。

（来源：谷歌）

同一天，OpenAI的“十二连发”活动进行到了第五天。不过这次直播略显平淡，只是演示了ChatGPT与苹果 Apple Intelligence 的整合。

相比之下，谷歌的发布可谓是“量大管饱”，抢尽了风头。

在新模型的加持下，谷歌一口气推出了三款 AI Agent（智能体）产品，标志着谷歌在与OpenAI、Anthropic和微软的竞争中迈出了重要一步。

（来源：谷歌博客、谷歌翻译）

谷歌DeepMind的CEO德米斯·哈萨比斯（Demis Hassabis）表示：“Gemini 2.0 实际上已经达到了目前 Gemini 1.5 Pro 的水平。这意味着在保持相同成本效率、性能效率和速度的同时，整体性能提升了一个档次。这个成果让我们非常满意。”

目前谷歌公布的是实验版Gemini 2.0 Flash。在官方数据对比中，新模型在编程、数学、推理、图像、视频等领域的处理能力均超越了Gemini 1.5 Pro，性能提升有目共睹。

图 | Gemini 2.0 Flash 的测试成绩（来源：谷歌）

谷歌 Gemini 产品负责人图尔西·多希（Tulsee Doshi）在新闻发布会上介绍说：“我们知道 Flash 因其在速度和性能上的平衡而深受开发者欢迎。新版本不仅保持了同样的快速响应能力，而且功能更加强大。”

据悉，这次性能的提升并没有以牺牲功能为代价，新版本在运行速度上甚至比前代 Flash 模型快了一倍，同时在代码编写和图像分析等方面都有显著提升。

Gemini 2.0 的最大亮点是其“代理人工智能”（Agentic AI）功能。这种 AI 系统不再仅仅是被动地回答问题，而是能够理解复杂的上下文，提前规划多个步骤，并在用户授权下采取行动。

谷歌推出了三个基于 Gemini 2.0 架构的 AI 智能体原型，分别是 Project Astra、Project Mariner 和Jules，每一个都针对特定应用场景进行了优化。

此外，谷歌还演示了 AI 智能体如何跟玩家合作打游戏。在《部落冲突》的演示中，AI 可以介绍兵种特性并给出组合建议。它还能在 Reddit 上检索信息，为玩家提供角色选择建议。玩家全程都是用对话的形式与智能体互动的。

图 | 玩家与 AI 智能体互动（来源：谷歌）

通用 AI 助手 Project Astra

Project Astra 是一个升级版的通用 AI 助手，它能够在多种语言之间自如切换，使用多种语言和混合语言进行交谈，同时访问谷歌搜索、地图等工具并保持对话语境记忆。

DeepMind 的集团产品经理比博·徐（Bibo Xu，音译）展示了它的能力。Project Astra现在可以在会话中保持长达 10 分钟的记忆，并能记住过去与用户的对话，从而提供更有帮助、更个性化的体验。

同时，它处理语言的速度可以与人类在日常对话中的处理速度相媲美。

在实际演示中，该系统展现出了令人印象深刻的语言切换能力，并能够实时通过谷歌搜索、地图和摄像头获取信息。

（来源：谷歌）

浏览器操作工具 Project Mariner

为了让 AI 智能体操作电脑，谷歌推出了 Project Mariner。

谷歌表示，Project Mariner 是使用 Gemini 2.0 构建的早期研究原型，旨在从浏览器开始探索人机交互的未来。作为研究原型，它能够理解和推理浏览器屏幕上的信息，包括像素和文本、代码、图像和表单等网络元素，然后通过实验性的 Chrome 扩展程序完成任务。

（来源：谷歌）

Project Mariner 和 Anthropic 此前推出的 AI 控制电脑（Computer use）功能类似，只不过目前它仅限于操作 Chrome 浏览器、移动屏幕上的光标、点击按钮和填写表格，能够像人类一样使用和浏览网站。

作为 Chrome 浏览器扩展程序，Project Mariner 在 WebVoyager 单一代理基准测试中取得了 83.5%的成功率，这个成绩在自主网页导航领域创下了新纪录。

谷歌实验室产品管理总监杰克琳·孔泽尔曼（Jaclyn Konzelmann）解释说：“Project Mariner 是一个早期研究原型，探索了 AI 智能体在网页浏览和行动执行方面的能力。”

谷歌表示，为了安全、负责地构建 Project Mariner 系统，他们正在积极研究新型风险和缓解措施，同时让人类参与其中。

例如，Project Mariner 只能在浏览器的活动选项卡中输入、滚动或点击，并且它会在执行某些敏感操作（例如购买某物）之前要求用户进行最终确认。

（来源：谷歌）

编程助手Jules

谷歌还针对软件开发者推出了 Jules。这个基于 Gemini 2.0 平台构建的 AI 编程助手可以在开发者休息时自主修复软件错误并准备代码更改。

与传统的编程助手不同，Jules 能够作为自主代理直接集成到 GitHub 的工作流程系统中，分析复杂的代码库，跨多个文件实施修复，并准备详细的拉取请求（pull requests），而无需持续的人工监督。

（来源：谷歌）

谷歌特别强调了 Jules 的安全特性：“开发者始终掌控着整个过程。Jules 会在采取行动前提出建议方案，用户可以监控其编写代码的过程。”它在合并任何更改之前都需要明确的批准，确保开发过程始终处于人工监督之下。

谷歌指出，Jules 的发布具有重要的战略意义。在软件开发行业面临持续的人才短缺的背景下，自动化编程助手变得越来越重要。

市场研究公司高德纳（Gartner）预测，到 2028 年，75%的新应用程序开发将涉及 AI 辅助编程。在美国劳伦斯伯克利国家实验室的早期测试中，研究人员使用 Jules 和相关谷歌 AI 工具，将某些分析任务的时间从一周缩短到了几分钟。

目前 Jules 仅开放给可信赖测试人员，并将在 2025 年初向其他感兴趣的开发者开放。

（来源：谷歌）

迈向 AI 智能体时代

谷歌的愿景是在 2025 年开启真正的“AI 智能体时代”，而Gemini 2.0将成为这一愿景的基础。

Gemini 2.0 在音频和图像生成方面取得了巨大突破。系统可以生成和修改图像，处理照片和视频，回答相关问题，还能用不同口音和语言的声音朗读文本。你可以要求它放慢或加快语速，甚至可以让它像海盗一样说话。

为了防止滥用，谷歌使用了 SynthID 技术对所有生成的音频和图像进行水印标记。

此外，谷歌正式向云服务客户开放了第六代张量处理单元（TPU）Trillium 芯片，并在单个网络结构中部署了超过 10 万枚芯片。Gemini 2.0 模型就是在 Trillium 上训练的。

谷歌还推出了多模态实时 API（Multimodal Live API），帮助开发者构建具有实时音频和视频流功能的应用程序。这个 API 支持来自摄像头或屏幕的音频和视频输入，能够处理包括打断在内的自然对话模式，这与 OpenAI 的实时 API 十分相似。

（来源：谷歌）

哈萨比斯表示，除了性能提升外，模型效率和速度的进步同样令人兴奋。谷歌计划将 Gemini 2.0 广泛应用于其产品生态系统中，包括谷歌搜索的 AI 概览功能（目前覆盖 10 亿用户）、Gemini 应用程序以及 Workspace 等办公套件，旨在为用户提供更统一、更强大的 AI 体验。

一年前，当谷歌推出第一代 Gemini 时，AI 领域还主要由能进行智能对话但难以处理现实世界任务的聊天机器人主导。如今，随着 AI 智能体领域迎来了更多参与者，它们开始迈出走向自主的第一步，整个行业似乎又站在了一个新的拐点上。

显然，现在的问题不再是 AI 能否理解我们，而是我们是否准备好让 AI 代表我们做出决策。

参考资料：

https://blog.google/technology/google-deepmind/google-gemini-ai-update-december-2024/

https://venturebeat.com/ai/google-gemini-2-0-could-this-be-the-beginning-of-truly-autonomous-ai/

https://techcrunch.com/2024/12/11/gemini-2-0-googles-newest-flagship-ai-can-generate-text-images-and-speech/

https://deepmind.google/technologies/project-mariner/

谷歌发布Gemini 2.0，能搜网页、写代码、教你打游戏

热搜

热门跟贴

热搜

热门跟贴

相关推荐

微软预测AI将在数年内淘汰网络浏览器和搜索引擎

谷歌发布量子计算芯片“Willow”，实现重大突破

谷歌DeepMind报告称AI for Science黄金时代已来（36 页报告全文）

谢邀，人在知乎，刚上“AI顶会”NeurIPS发论文

AI群星闪耀时 | AI月活超7000万，百度文库借AI杀出重围

让老板们看看AI Agent到底该怎么用？

美国AI领先中国几十年？实际上就是一堆芯片和手机上的几个APP

谷歌 CEO 皮查伊嘲讽微软：他们使用的是别人开发的 AI 模型

华为AI隔空操作，竟被年轻人玩出了新高度，这扎中多少男人的心！

手机搜索工具，Fast！软件体验

iOS 18.2和iPadOS 18.2正式发布 新增Genmoji和更多Apple Intelligence功能

Redmi Note 14系列全球发布，搭载高端规格和AI功能

华为手机AI隔空传送，别人的手能用吗？结果让人意外！

外网播放过亿的视频，看到最后才知道，原来这是AI的杰作

一个平台管好四万五千台设备，六周完成终端设备“无感迁移” | 创新场景

AI陪伴：谁在赛博世界里吹起了粉色泡泡？

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

半小时教你手搓AI视频通话，还有懒人版代码已开源

大模型承重墙，去掉了就开始摆烂！苹果给出了「超级权重」

别等Sora了！这些国产AI视频大模型，款款都超能打

iOS 18.2和iPadOS 18.2正式发布新增Genmoji和更多Apple Intelligence功能