超越Claude 3！谷歌发布Gemini 1.5 Pro预览版|flash|gemini|token|应用程序|插件功能|谷歌

在周二的Google I/O 2024开发者大会上，谷歌宣布推出最新大模型人工智能旗舰产品 Gemini 1.5 Pro的个人预览版，这是该公司当前的旗舰机型，最多可容纳200万token数，这是上一个版本最高token数的两倍。Gemini 1.5 Pro目前是所有商用型号中支持最大输入的模型，第二大的是Anthropic的Claude 3，最高token数为100万个。

在人工智能领域，token指的是原始数据的细分位，例如“fantastic”一词中的“fan”、“tas”和“tic”音节。 200 万个token相当于约 140万个单词、两个小时的视频或22小时的音频。除了能够分析大文件之外，可以接受更多token数的模型有时还可以提高性能。

与最大token输入较小（也称为“上下文”）的模型不同，诸如 200 万token输
入Gemini 1.5 Pro之类的模型不会轻易“忘记”最近对话的内容并偏离主题。大的上下文模型还可以更好地掌握它们所接收的数据流（至少是假设的），并生成更丰富的上下文响应。

有兴趣尝试具有200万token上下文的Gemini 1.5 Pro的开发人员可以将自己的名字添加到 Google AI Studio（Google 的生成式 AI 开发工具）的等待名单中。（具有 100 万token上下文的 Gemini 1.5 Pro将在下个月Google 开发者服务中全面发布。）

除了更大的上下文窗口之外，谷歌表示，Gemini 1.5 Pro在过去几个月中通过算法改进得到了“增强”。它在代码生成、逻辑推理和规划、多轮对话以及音频和图像理解方面表现更好。在Gemini API和 AI Studio中，1.5 Pro现在除了图像和视频之外还可以对音频进行推理，并通过称为系统指令的功能进行“引导”。

Gemini 1.5 Flash，更快的型号

对于要求较低的应用程序，谷歌推出了公共预览版Gemini 1.5 Flash，这是Gemini 1.5 Pro的“精炼”版本，专为“窄”、“高频”生成 AI 工作负载而构建的小型高效模型。Flash拥有多达 200 万个token上下文窗口，与 Gemini 1.5 Pro一样是多模态的，这意味着它可以分析音频、视频和图像以及文本（但目前只能生成文本）。

“Gemini Pro适用于更一般或更复杂、通常是多步骤的推理任务，”谷歌实验人工智能部门之一的谷歌实验室副总裁乔什·伍德沃德 (Josh Woodward) 在向记者介绍。 “但是作为开发人员，如果您非常关心模型输出的速度，您确实想使用Gemini 1.5 Flash是很好的选择。”目前得知该应用更适合摘要、聊天应用程序、图像和视频字幕以及从长文档和表格中提取数据等任务。Flash似乎也是Google对通过 API（例如 Anthropic 的Claude 3 Haiku）提供服务的小型、低成本模型的回应，它与 Gemini 1.5 Pro一起得到广泛使用。