谷歌推出 Gemini Omni Flash，实现跨应用自主视频创作|flash|gemini|omni|用户完成语音|知名企业|谷歌

谷歌推出 Gemini Omni Flash，支持通过对话式提示进行自主视频创作和编辑。

谷歌已开始推出 Gemini Omni Flash，这是其全新的多模态 AI 模型，能够利用文本、图像、音频和视频输入生成并编辑视频。此次上线紧随该模型在 Google I/O 2026 大会上的发布，标志着用户现在可以在 Gemini 应用、Google Flow 和 YouTube Shorts 中实际使用这一系统。

谷歌表示，该模型旨在将推理能力与创意生成整合在单一系统中，让用户能够通过自然对话来构建和修改视频内容。

借助 Gemini Omni Flash，用户可以提示模型从零开始创作视频，或逐步修改现有片段。每一条指令都建立在上一条的基础上，允许在不破坏连贯性的前提下不断完善场景。谷歌称，这有助于在多次迭代修改视频时，保持角色、物体和环境的一致性。

该模型还支持多输入工作流程，用户可以将文本提示、图像、视频片段和音频参考等不同类型的输入组合起来。这样一来，一个输出视频就可以利用多个参考点来塑造，而不是仅仅依赖单条提示。谷歌表示，该系统能够理解这些输入之间的相互关系，并生成连贯的最终场景。

此次推出是谷歌将生成式 AI 融入其消费者生态系统的更广泛举措的一部分，尤其侧重于短视频创作平台。YouTube Shorts 和 YouTube Create 应用是首批引入 Omni Flash 功能的平台，标志着 AI 生成工具与内容创作流程之间的更紧密结合。

该公司还表示，通过该系统生成的所有输出都将包含 SynthID 水印，以便识别 AI 生成的内容。

对话式视频编辑

Gemini Omni Flash 允许用户使用自然语言指令编辑视频，而无需借助传统编辑工具。用户可以描述各种更改，比如改变环境、添加物体或更改场景中的动作，模型会随之更新视频，同时保留整体结构。

该系统的设计目标是在多次编辑中保持视觉连续性，确保在多步骤的修改中，角色和物体始终保持一致。谷歌表示，与传统的视频制作工具相比，这使得编辑过程更具迭代性和灵活性。

该模型还借助 Gemini 更广泛的世界知识来提高生成内容的真实感。据谷歌称，它利用这种理解来更精准地模拟物理交互，如运动、光照和环境效果。

从提示到成品

谷歌将 Gemini Omni Flash 定位为迈向多模态 AI 系统这一更宏大转变的一部分，这类系统能够同时处理创作和推理。该模型旨在处理多种输入格式，并生成能反映组合指令而非孤立提示的输出视频。

谷歌表示，其目标是缩小从创意到执行之间的差距，让用户能够通过单一对话式界面从概念直达成片。未来，谷歌计划将输出格式从视频扩展到图像和音频，这些支持也将在后续更新中推出。