打开网易新闻 查看精彩图片

在周二的Google I/O 2024开发者大会上,谷歌宣布推出最新大模型人工智能旗舰产品 Gemini 1.5 Pro的个人预览版,这是该公司当前的旗舰机型,最多可容纳200万token数,这是上一个版本最高token数的两倍。Gemini 1.5 Pro目前是所有商用型号中支持最大输入的模型,第二大的是Anthropic的Claude 3,最高token数为100万个。

在人工智能领域,token指的是原始数据的细分位,例如“fantastic”一词中的“fan”、“tas”和“tic”音节。 200 万个token相当于约 140万个单词、两个小时的视频或22小时的音频。除了能够分析大文件之外,可以接受更多token数的模型有时还可以提高性能。

与最大token输入较小(也称为“上下文”)的模型不同,诸如 200 万token输
入Gemini 1.5 Pro之类的模型不会轻易“忘记”最近对话的内容并偏离主题。大的上下文模型还可以更好地掌握它们所接收的数据流(至少是假设的),并生成更丰富的上下文响应。

打开网易新闻 查看精彩图片

有兴趣尝试具有200万token上下文的Gemini 1.5 Pro的开发人员可以将自己的名字添加到 Google AI Studio(Google 的生成式 AI 开发工具)的等待名单中。 (具有 100 万token上下文的 Gemini 1.5 Pro将在下个月Google 开发者服务中全面发布。)

除了更大的上下文窗口之外,谷歌表示,Gemini 1.5 Pro在过去几个月中通过算法改进得到了“增强”。它在代码生成、逻辑推理和规划、多轮对话以及音频和图像理解方面表现更好。在Gemini API和 AI Studio中,1.5 Pro现在除了图像和视频之外还可以对音频进行推理,并通过称为系统指令的功能进行“引导”。

Gemini 1.5 Flash,更快的型号

对于要求较低的应用程序,谷歌推出了公共预览版Gemini 1.5 Flash,这是Gemini 1.5 Pro的“精炼”版本,专为“窄”、“高频”生成 AI 工作负载而构建的小型高效模型。Flash拥有多达 200 万个token上下文窗口,与 Gemini 1.5 Pro一样是多模态的,这意味着它可以分析音频、视频和图像以及文本(但目前只能生成文本)。

“Gemini Pro适用于更一般或更复杂、通常是多步骤的推理任务,”谷歌实验人工智能部门之一的谷歌实验室副总裁乔什·伍德沃德 (Josh Woodward) 在向记者介绍。 “但是作为开发人员,如果您非常关心模型输出的速度,您确实想使用Gemini 1.5 Flash是很好的选择。”目前得知该应用更适合摘要、聊天应用程序、图像和视频字幕以及从长文档和表格中提取数据等任务。Flash似乎也是Google对通过 API(例如 Anthropic 的Claude 3 Haiku)提供服务的小型、低成本模型的回应,它与 Gemini 1.5 Pro一起得到广泛使用。

打开网易新闻 查看精彩图片

在另一项针对注重成本的开发人员的更新中,所有Gemini 模型(不仅仅是 Flash)很快就能利用上下文缓存的功能。这使得开发人员可以在缓存中存储大量信息(例如,知识库或研究论文数据库),Gemini 模型可以快速且相对便宜地(从每次使用的角度来看)访问这些信息。

免费的Batch API现已在Google面向企业的生成式AI开发平台 Vertex AI中公开预览,提供了一种更具成本效益的方式来处理分类和情感分析、数据提取和描述生成等工作负载,并允许多个提示通过单个请求发送给Gemini模型。

本月晚些时候谷歌将在Vertex预览版中推出的另一项新功能“控制生成”可能会进一步节省成本,伍德沃德表示,该功能允许用户根据特定格式或模式(例如 JSON 或 XML)定义Gemini模型输出。能够将所有文件只需发送到模型一次,而不必一遍又一遍地重新发送它们。