谷歌Omni Flash：用声音做视频的时代来了

我是一个粉刷匠2

2026-05-20 02:46 ·北京

语音直接生成视频，还能边聊边改——这不再是科幻片里的场景。谷歌最新发布的Gemini Omni Flash，正在把这个能力变成日常工具。

这家科技巨头此前已在AI图像领域布局，其Nano Banana图像生成器（现已迭代至第二代）已帮助数百万用户通过文字描述和图像提示创作专业级视觉内容。用户还能借助参考图像对作品进行调整。如今，谷歌将触角延伸至视频生成领域，推出这款支持多模态输入的AI视频创作工具。

Omni Flash的核心能力在于"全模态输入"——文字、图像、音频、视频均可作为素材，甚至你的声音描述本身就能驱动创作。你可以口述想要的视觉风格，也可以上传角色照片、场景图或手绘稿，让AI提取其中的风格、动态或特效元素。

谷歌强调该工具具备"物理智能"：它对重力、动能、流体动力学的理解，让生成场景更具真实感。同时，Omni Flash融合了Gemini在语言、图像和语义理解上的积累，能将语音指令转化为或短或长的讲解型视频。

编辑环节同样通过对话完成。你可以要求AI修改视频的特定细节，或彻底重构画面；也能导入自己拍摄的素材，让Omni Flash改变画面内容、添加新物体或角色，甚至将某个瞬间完全替换成另一种场景。

目前，Omni系列首个成员已向Gemini应用、Google Flow和YouTube Shorts推出。入门玩法是生成"AI Avatar"视频——一个用你的声音说话的数字分身。从静态图像到动态视频，从键盘输入到语音交互，内容创作的门槛正在被重新丈量。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴