Google I/O 2026今天炸出一堆AI新功能,但最抓眼球的是一个叫Gemini Omni的多模态模型。它先从视频生成起步,以后图片、音频都能往里塞,输入输出两边通吃。

简单说,你可以把不同的音频、图片、视频搅在一起,用一句话prompt让它吐出个全新片段。现在Gemini只能根据文字和图片生成视频,Omni加了音频和现有视频当素材——多源输入,Google说输出效果也比以前更真、更准。

打开网易新闻 查看精彩图片

图片和音频生成还在路上,视频先来,首发模型叫Gemini Omni Flash。Google举了个例子:从手机相册里挑几种风格,往现有视频上一套——比如把你真人出镜的日常,变成皮克斯动画画风。

Google说还能"聊着改"视频。用过Gemini做视频的人应该熟悉这套:你说想要啥,Omni帮你弄。接着聊,改个物体、换个颜色,或者"重拍"一段动作不一样的版本。角度、场景也能换,卧室秒变海滩。可以反复打磨,也能随时回到原片。

Google称Gemini Omni靠"对物理的直观理解",加上"历史、科学、文化背景的知识",让视频尽量真实连贯——不过实际效果还得我自己试了才知道。Omni现在更懂重力、动能、流体这些,AI抽风的场面应该少点。Google还说,它不是死磕训练数据里的视频模式,而是会推理"接下来该发生什么"。比如人走出画面,镜头摇回来,人还在不在,这种以前容易崩的地方,Google说Omni会改善。

防深度伪造方面,Google加了限制:目前只能用你自己的声音、基于你本人的数字形象生成内容。所有视频都会打上Google看不见的SynthID水印,标记这是AI做的。Gemini Omni Flash现在开始 rollout。