来源:市场资讯

(来源:AI普瑞斯)

AIPress.com.cn报道

这段时间,有不少Gemini用户在打开App时会弹出一个叫Gemini Omni的新模型。

打开网易新闻 查看精彩图片

之前也有网友在Gemini视频生成界面中发现这样一句话:

Start with an idea or try a template. Powered by Omni(从一个灵感开始,或试试模板。由 Omni 提供支持。)

打开网易新闻 查看精彩图片

这个Omni到底是啥?能力又怎么样?引发了网友们的热烈探讨。

能力一般,挑费不小

今天有人耐不住好奇心,用这个Gemini Omni生成了一个视频。

Prompt:Can you create a scene with two men at a table seaside at an upscale restaurant on outdoor deck seating. They are at a circular table with a nice white table cloth, and all of the fancy accessories, all the spoons forks and knives, fancy napkins, centerpiece. One man is Distinguished: A mature African-American man in his 50s with a short beard and confident posture, wearing a tailored, sophisticated suit, the other is is friend, both approaching the table to eat a plate of spaghetti. In the beginning the men approach the table, exchange brief niceties, and begin to eat the spaghetti calmly In between bites sharing conversation.

单从这个视频来看,Omni生成的作品整体效果不错,但是在细节处理上还是有些纰漏。在两个人拿起叉子吃意面的画面里,比如原本摆在桌子上的花瓶突然就消失了。

不过,相比此前的Veo3.1,Omni在语音质量上要更胜一筹。无论是人声、背景音,甚至是海浪声都处理得很到位。

另外,这位网友一开始是准备给Omni来一个“威尔·史密斯意大利面测试”的,但是被谷歌的安全机制给拦下了。所以目前来看,谷歌在真人形象生成视频这个方面还是很谨慎的。

需要提醒的是,用Omni生成视频很费额度。

网友用的是Pro版本的订阅套餐,生成两个视频用了他今天限额的86%,完全就是个“吞金兽”。

打开网易新闻 查看精彩图片

关于Omni“真身”的三点猜测

那Omni到底会是什么呢?从现有的信息来看,有三种可能。

首先,从UI界面和它已经展现出的能力来看,有一点是可以确定的。那就是它一定具有视频生成能力。

这就引申出了两种可能。

一种是Gemini Omni是Veo的新品牌名,其底层架构并不是全新的,换汤不换药。

而另一种则是Omni可能是基于Gemini架构的视频生成模型,未来可能会取代独立的 Veo系列模型。

但“Omni”的意思是全面的,全能的。所以也有不少人猜测Omni可能同时支持图像与视频生成。

而目前,谷歌的视频和图片生成是Veo和Nano Banana两个模型在分工完成。

据了解,目前很多AI视频工作流中,都是先用图像模型生成故事板,再用视频模型生成视频。这就需要创作者要自己在两个模型里穿梭。

比如GPT Image 2 + Seedance 2分镜工作流

如果两个步骤可以在一个模型里完成,不仅能让视频风格更加稳定,还能简化整个创作流程,提高效率。

不过,目前都还是猜测。

综合各方信息来看,Gemini Omni可能会在5月19-20日的Google I/O 2026上亮相。

当前视频模型的竞争十分激烈,还是希望谷歌能带来新鲜东西。