谷歌推出 Gemini Omni Flash,支持通过对话式提示进行自主视频创作和编辑。
谷歌已开始推出 Gemini Omni Flash,这是其全新的多模态 AI 模型,能够利用文本、图像、音频和视频输入生成并编辑视频。此次上线紧随该模型在 Google I/O 2026 大会上的发布,标志着用户现在可以在 Gemini 应用、Google Flow 和 YouTube Shorts 中实际使用这一系统。
谷歌表示,该模型旨在将推理能力与创意生成整合在单一系统中,让用户能够通过自然对话来构建和修改视频内容。
借助 Gemini Omni Flash,用户可以提示模型从零开始创作视频,或逐步修改现有片段。每一条指令都建立在上一条的基础上,允许在不破坏连贯性的前提下不断完善场景。谷歌称,这有助于在多次迭代修改视频时,保持角色、物体和环境的一致性。
该模型还支持多输入工作流程,用户可以将文本提示、图像、视频片段和音频参考等不同类型的输入组合起来。这样一来,一个输出视频就可以利用多个参考点来塑造,而不是仅仅依赖单条提示。谷歌表示,该系统能够理解这些输入之间的相互关系,并生成连贯的最终场景。
此次推出是谷歌将生成式 AI 融入其消费者生态系统的更广泛举措的一部分,尤其侧重于短视频创作平台。YouTube Shorts 和 YouTube Create 应用是首批引入 Omni Flash 功能的平台,标志着 AI 生成工具与内容创作流程之间的更紧密结合。
该公司还表示,通过该系统生成的所有输出都将包含 SynthID 水印,以便识别 AI 生成的内容。
对话式视频编辑
Gemini Omni Flash 允许用户使用自然语言指令编辑视频,而无需借助传统编辑工具。用户可以描述各种更改,比如改变环境、添加物体或更改场景中的动作,模型会随之更新视频,同时保留整体结构。
该系统的设计目标是在多次编辑中保持视觉连续性,确保在多步骤的修改中,角色和物体始终保持一致。谷歌表示,与传统的视频制作工具相比,这使得编辑过程更具迭代性和灵活性。
该模型还借助 Gemini 更广泛的世界知识来提高生成内容的真实感。据谷歌称,它利用这种理解来更精准地模拟物理交互,如运动、光照和环境效果。
从提示到成品
谷歌将 Gemini Omni Flash 定位为迈向多模态 AI 系统这一更宏大转变的一部分,这类系统能够同时处理创作和推理。该模型旨在处理多种输入格式,并生成能反映组合指令而非孤立提示的输出视频。
谷歌表示,其目标是缩小从创意到执行之间的差距,让用户能够通过单一对话式界面从概念直达成片。未来,谷歌计划将输出格式从视频扩展到图像和音频,这些支持也将在后续更新中推出。
Gemini Omni Flash 的推出目前仅限于 Gemini 应用中的特定订阅层级,随着部署范围的扩大,预计将逐步开放更广泛的访问权限。
如果朋友们喜欢,敬请关注“知新了了”!
热门跟贴