谷歌深夜忽然发力，宣布发布最强AI模型Gemini

DoNews

2023-12-07 10:03 ·北京

DoNews12月7日消息，在OpenAI的ChatGPT发布一年之后，谷歌终于不甘示弱，在北京时间12月7日凌晨忽然宣布发布其规模最大、能力最强的 AI 多模态模型 Gemini 1.0。

Gemini 最早公布于 2023 年 5 月的谷歌 I/O 全球开发者大会，由谷歌收购来的 DeepMind 打造，也就是打败李世石的团队。

Gemini 原计划将在秋季发布，但此前传出谷歌 CEO 桑达尔·皮查伊（Sundar Pichai）因为 Gemini 在非英语体系中的表现欠佳而宣布发布推迟，现在看来他不准备再等了。

据悉，Gemini 1.0 针对不同尺寸进行了优化，分别是：Ultra、Pro 和 Nano（超大杯，大杯和迷你杯）。

其中 Gemini Ultra 适用于高度复杂的任务；Gemini Pro 是通用版，而 Gemini Nano 则被用于各种客户端设备。

根据谷歌方面的计划，Pro大杯和Nano迷你杯即日推出，而Ultra超大杯则要等到明年。

根据谷歌方面公布的数据，在被大型语言模型（LLM）研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超过了目前最先进的水平。

Gemini Ultra 的得分率为 90.0%，是第一个在 MMLU（大规模多任务语言理解）测试中超过人类专家的模型。

MMLU 综合使用了数学、物理、历史、法律、医学和伦理等 57 个科目，用于测试世界知识和解决问题的能力。

在新的 MMMU 基准测试中，Gemini Ultra 也取得了得分率为 59.4% 的优异成绩，该基准测试由横跨不同领域、需要仔细推理的多模态任务组成。

谷歌方面宣称，Gemini 1.0 主要在以下方面拥有优势：

复杂的推理：Gemini 1.0 具有复杂的多模态推理能力，可帮助理解复杂的书面和视觉信息。这使得它具有独特的技能，可以在海量的数据中发掘难以辨别的知识内容。

理解文本、图像、音频及更多：Gemini 1.0 经过训练，可以同时识别并理解文本、图像、音频等，因此它能更好地理解具有细微差别的信息，回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等复杂科目中的推理，例如识别手写的文字和公式等。

高级编码能力：第一代 Gemini 可以理解、解释和生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的高质量代码。

它能够跨语言工作并对复杂信息进行推理，这些能力使其成为世界领先的编码基础模型之一。

这样一个功能强大的大模型是如何训练出来的？据谷歌公布，其使用了自行设计研发的TPUs v4 和 v5e。

所谓的TPU就是张量处理单元（Tensor Processing Units），这些定制设计的 AI 加速器一直是 Google 服务数十亿用户的 AI 赋能产品的核心，如 Search、YouTube、Gmail、Google Maps、Google Play 和 Android。它们还使得世界各地的公司能够经济高效地训练大规模的 AI 模型。

与此同时，谷歌还发布了迄今为止功能最强大、效率最高且可扩展性最强的 TPU 系统 Cloud TPU v5p，旨在为训练前沿 AI 模型提供支持。

新一代 TPU 将加速 Gemini 的开发，帮助开发者和企业客户更快地训练大规模生成式 AI 模型，从而更快推出新产品和新功能。

据谷歌方面公布，Gemini 1.0 将在多种产品和平台上推出：

即日起，Bard 将使用 Gemini Pro 的微调版本来进行更高级的推理、规划和理解等。这是 Bard 自推出以来最大的升级。

它将在 170 多个国家和地区提供英语服务，并且谷歌计划在未来几个月内扩展不同的模态，并支持新的语言和地区。

谷歌还在 Pixel 上使用 Gemini。Pixel 8 Pro 是首款搭载 Gemini Nano 的智能手机，它可以支持录音应用中的“总结”等新功能，并在 Gboard 中推出“智能回复”功能，从 WhatsApp 开始，2024 年还将推出更多信息应用。

未来几个月，Gemini 将应用于谷歌更多的产品和服务，如 Search、Ads、Chrome 和 Duet AI。

谷歌已经开始在 Search 中试验 Gemini，它能够为用户提供更快的搜索生成体验（SGE），用户在美国的英语搜索延迟降低了 40%，同时在质量方面也有所提高。

2024年年初，谷歌还将推出内置 Gemini Ultra 的 Bard Advanced。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴