Google新AI能"听懂"你的视频，还能把你变皮克斯主角

山野有晚风

2026-05-20 02:03 ·北京

Google I/O 2026今天炸出一堆AI新功能，但最抓眼球的是一个叫Gemini Omni的多模态模型。它先从视频生成起步，以后图片、音频都能往里塞，输入输出两边通吃。

简单说，你可以把不同的音频、图片、视频搅在一起，用一句话prompt让它吐出个全新片段。现在Gemini只能根据文字和图片生成视频，Omni加了音频和现有视频当素材——多源输入，Google说输出效果也比以前更真、更准。

图片和音频生成还在路上，视频先来，首发模型叫Gemini Omni Flash。Google举了个例子：从手机相册里挑几种风格，往现有视频上一套——比如把你真人出镜的日常，变成皮克斯动画画风。

Google说还能"聊着改"视频。用过Gemini做视频的人应该熟悉这套：你说想要啥，Omni帮你弄。接着聊，改个物体、换个颜色，或者"重拍"一段动作不一样的版本。角度、场景也能换，卧室秒变海滩。可以反复打磨，也能随时回到原片。

Google称Gemini Omni靠"对物理的直观理解"，加上"历史、科学、文化背景的知识"，让视频尽量真实连贯——不过实际效果还得我自己试了才知道。Omni现在更懂重力、动能、流体这些，AI抽风的场面应该少点。Google还说，它不是死磕训练数据里的视频模式，而是会推理"接下来该发生什么"。比如人走出画面，镜头摇回来，人还在不在，这种以前容易崩的地方，Google说Omni会改善。

防深度伪造方面，Google加了限制：目前只能用你自己的声音、基于你本人的数字形象生成内容。所有视频都会打上Google看不见的SynthID水印，标记这是AI做的。Gemini Omni Flash现在开始 rollout。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴