语音直接生成视频,还能边聊边改——这不再是科幻片里的场景。谷歌最新发布的Gemini Omni Flash,正在把这个能力变成日常工具。

这家科技巨头此前已在AI图像领域布局,其Nano Banana图像生成器(现已迭代至第二代)已帮助数百万用户通过文字描述和图像提示创作专业级视觉内容。用户还能借助参考图像对作品进行调整。如今,谷歌将触角延伸至视频生成领域,推出这款支持多模态输入的AI视频创作工具。

打开网易新闻 查看精彩图片

Omni Flash的核心能力在于"全模态输入"——文字、图像、音频、视频均可作为素材,甚至你的声音描述本身就能驱动创作。你可以口述想要的视觉风格,也可以上传角色照片、场景图或手绘稿,让AI提取其中的风格、动态或特效元素。

谷歌强调该工具具备"物理智能":它对重力、动能、流体动力学的理解,让生成场景更具真实感。同时,Omni Flash融合了Gemini在语言、图像和语义理解上的积累,能将语音指令转化为或短或长的讲解型视频。

编辑环节同样通过对话完成。你可以要求AI修改视频的特定细节,或彻底重构画面;也能导入自己拍摄的素材,让Omni Flash改变画面内容、添加新物体或角色,甚至将某个瞬间完全替换成另一种场景。

目前,Omni系列首个成员已向Gemini应用、Google Flow和YouTube Shorts推出。入门玩法是生成"AI Avatar"视频——一个用你的声音说话的数字分身。从静态图像到动态视频,从键盘输入到语音交互,内容创作的门槛正在被重新丈量。