Google的下一个主要人工智能模型已经到来,以对抗来自 OpenAI 的新产品的夹击。本周三,Google 发布了 Gemini 2.0 Flash,该公司称其除文本外,还能原生生成图像和音频。 2.0 Flash 还可以调用第三方应用程序和服务,使其能够接入 Google 搜索、执行代码等。
2.0 Flash 的实验版本将从今天开始通过 Gemini API 和 Google 的人工智能开发者平台AI Studio 和Vertex AI 提供。 不过,音频和图像生成功能仅面向"早期访问合作伙伴"推出,并将于 1 月份全面推出。
Google表示,在未来几个月内,它将为Android Studio、Chrome DevTools、Firebase, Gemini Code Assist等产品带来各种版本的 2.0 Flash。
第一代 Flash(1.5 Flash)只能生成文本,并不是为要求特别高的工作负载而设计的。 Google 表示,这种新模式更具通用性,部分原因在于它可以调用搜索等工具并与外部 API 进行交互。
产品主管图尔西-多希(Tulsee Doshi)在周二的发布会上说:"我们知道,Flash 在速度和性能之间取得了平衡,因此深受开发人员的欢迎。有了 2.0 版 Flash,它的速度一如既往,而且功能更加强大。"
Google声称,根据自己的测试,2.0 Flash 在某些基准测试中的速度是该公司 Gemini 1.5 Pro 模型的两倍,而且在编程和图像分析等方面有了"显著"改进。 事实上,该公司表示,2.0 Flash 凭借其卓越的数学能力和"事实性",取代 1.5 Pro 成为 Gemini 的旗舰模型。
如前所述,2.0 Flash 可以生成并修改文本和图像。 该模型还能采集照片和视频以及录音,以回答相关问题(例如"他说了什么?)
音频生成是 2.0 Flash 的另一项主要功能,多希将其描述为"可操纵"和"可定制"。 例如,该模型可以使用针对不同口音和语言"优化"的八种声音之一来叙述文本。
她补充说:"你可以让它说得慢一点,也可以让它说得快一点,甚至可以让它说像海盗一样的话。"
目前Google没有提供 2.0 Flash 的图像或音频样本。 至少在撰写本文时,我们无法得知其质量与其他模型的输出相比如何。
Google 表示将使用其SynthID技术对 2.0 Flash 生成的所有音频和图像进行水印处理。 在支持 SynthID 的软件和平台上(即选定的 Google 产品),模型的输出将被标记为合成。
这是为了消除对滥用的担忧。 事实上,深度伪造是一种日益严重的威胁。 根据身份验证服务公司Sumsub的数据,从2023年到2024年,全球检测到的深度伪造增加了4倍。
2.0 Flash 的正式版本将于 1 月份发布。 但与此同时,Google将发布一个应用程序接口(API)--多模态实时应用程序接口(Multimodal Live API),以帮助开发人员创建具有实时音频和视频流功能的应用程序。
Google表示,通过使用多模态实时 API,开发人员可以创建实时、多模态的应用程序,并通过摄像头或屏幕输入音频和视频。 该 API 支持集成各种工具来完成任务,并且可以处理"自然对话模式",例如中断,这与 OpenAI 的 Realtime API 大体一致。
多模态实时 API 已于今天上午全面推出。
热门跟贴