打开网易新闻 查看精彩图片

新智元报道

编辑:桃子 定慧

【新智元导读】硅谷巨头在AI视频赛道激战正酣,中国AI正面硬刚!今天,Vidu Q3震撼登场,16s音画直出一镜到底,正式开启「视听生成」时代。

2026年的AI视频圈,开局即决战!

硅谷巨头们的贴身肉搏,比想象中来得更早,也更猛烈。

几周前,谷歌Veo 3.1凭借「素材生视频」(Ingredients to Video),超强一致性+4K画质惊艳登场。

打开网易新闻 查看精彩图片

坊间传闻Veo 3.2也将蓄势待发

另一边,马斯克也来秀肌肉了。Grok Imagine上线生成10s视频的功能,音画双飞跃。

Runway全新Gen 4.5模型,死磕连贯叙事、高一致性,同样生成时长可达10s。

打开网易新闻 查看精彩图片

就在这硝烟弥漫的时刻,中国AI队正式加入战局,并向全球牌桌投下了一枚重磅炸弹。

下一代旗舰模型——Vidu Q3,今日重磅登场!

它带着极具野心的Slogan:「声画同出,创想无界」,直接重新改变了游戏规则。

这是全球首个一键直出16s音视频的模型,做到了一次生成,完整表达。

这意味着,在长达16秒的时长里,Q3能同时处理画面、声音、剧情推进、镜头调度,叙事能力更强。

更惊艳的是,它还支持镜头控制+自由切换、多语言文字渲染,以及专业级漫剧、短剧、电影制作。

在Artificial Analysis最新榜单中,Vidu Q3表现非常亮眼,硬刚马斯克Grok,位列中国第一、全球第二

不仅如此,它还一举超越了Runway Gen-4.5 ,谷歌Veo3.1和OpenAI Sora 2。

Vidu正在用实力向世界诠释「中国速度」,领跑视频生成的下半场。

打开网易新闻 查看精彩图片

Vidu Q3的出世,标志着AI视频正式从「演技生成」,迈入「视听生成」的新时代。

它不再为单帧画面而生,而是为「剧」而生!

Vidu Q3全球燃爆登场

16s一镜到底

现在,Vidu Q3已上线了文生音视频、图生音视频功能。

打开网易新闻 查看精彩图片

从Vidu.cn或Vidu API:platform.vidu.cn,抢先体验Vidu Q3全新功能

接下来,就是一波最全面的实测,看看Q3究竟有多强。

一次生成,声画同步

长久以来,AI视频生成领域存在一个巨大的痛点:视频太短,且大多是「哑剧」。

几秒钟的无声画面,充其量只能算一张「会动的海报」,无法承载复杂的情绪和故事。

去年5月,谷歌Veo3的发布真正引爆了原生多模态「音画同步」,彻底终结了这一尴尬局面。

紧接着Runway Gen-3 Alpha、OpenAI Sora 2等模型迭代,也做到了音画一体。

如今,难点又落在了AI视频的时长上。目前,业界鲜有能打的生成超10秒的AI视频工具。

就拿谷歌Veo 3来说,支持最长8秒视频生成。OpenAI Sora 2还比较例外,最长15秒。

而真正做到单次生成16秒时长的,业界只有Vidu Q3了。不用拼接,不用后期合成——一气呵成,完整叙事。

打开网易新闻 查看精彩图片

这种震撼,在demo中展现得淋漓尽致。

一艘正在沉没的巨轮船舱内,海水倒灌,船体倾斜已近60度。

其他人都在逃命,唯有一名中年男子安坐在钢琴前演奏,钢琴声、海浪声交织在一起,营造出史诗般的叙事张力。

下面这个案例中,上传一张六格分镜图,让Vidu Q3按步骤生成一个制作视频。

打开网易新闻 查看精彩图片

令人惊叹的是,这种分镜效果在Q3视角下,呈现出完全不输真实大片的效果。

Vidu Q3还能轻松复刻电影的经典瞬间,甚至可以支持多种语言,包括中、英、日。

输入《哈利波特》中一张伏地魔的图片,他用低沉的声音宣告:Harry Potter is dead。人物的神态、声音高度还原,口型和音色精准匹配。

在这段中年夫妇的「对手戏」中,Vidu Q3更是交出了一份令人细思极恐的答卷。

画面呈现出经典的胶片质感,两人对视而立,对话声音平静却难掩忧伤。

Q3精准捕捉到了这种「克制的演技」,再配上精准的口型,让对话有了直击人心的真实重量。

Q3还可以来一段即兴的演奏,上传一张男子的图片,让他唱一句:Welcome to vidu Q3 model,瞬间有爵士那味儿了。

打开网易新闻 查看精彩图片

导演级运镜,控制每一帧

如果说16s音画直出让人惊喜,那么Vidu Q3的镜头控制力,足以让影视从业者感到后背发凉。

传统AI视频最大的问题,是镜头「乱跑」——你想要一个推镜头,它可能给你一个大仰拍。

Vidu Q3终于让我们拿回了「导演筒」。

但在Q3的世界里,任何人可以像导演一样,精准控制每一帧的运镜节奏和视角切换。

甚至,它能够根据画面内容自动切镜,让视觉呈现立马生动了起来。

让我们看一段极具张力的日漫风格打斗场景,这里给到了七个分镜的文本提示。

从全景对峙的氛围铺垫,到特写镜头的心理博弈,再到动作场面的爆发,Q3竟在一个视频中,自动完成流畅的切镜,还配上了指定对白和音效卡点。

这哪里是视频生成,这分明是实时渲染一部动画电影。

再来看如下这个皮克斯3D动画demo,Q3仅用一个镜头推进的特写和一个细微的吸气音效,就将孩子那种失望、委屈又无奈的情绪张力瞬间拉满。

Vidu Q3还特别擅长「微距镜头」,如下demo中,荷叶在微风中轻微颤动,露珠从边缘缓缓滑落,展现了它对物理世界的顶级理解力。

打开网易新闻 查看精彩图片

在图生音视频中,上传一张跑车图,让Q3生成一段让人肾上腺素飙升的追逐场景:霸王龙猛然冲出森林,在碎石路上狂奔,紧紧追逐前面的跑车。

打开网易新闻 查看精彩图片

令人没想到,Q3生成的效果危机感直接拉满。

跑车从镜头前呼啸而过,轮胎疯狂摩擦地面,紧接着霸王龙出现,发出震耳欲聋的嘶吼。

可以看到,Q3展现出了惊人的物理理解力、音效渲染力,让AI视频拥有了直击人心的电影级叙事力量。

玩转文字:视频里的字终于写对了

提到AI视频的文字渲染,曾经简直是「鬼画符重灾区」。

英文字母变形、中文笔画缺失、日文假名乱码……这些槽点,让无数内容创作者抓狂。

Vidu Q3在文字渲染上实现了质的飞跃——中、英、日三种文字精准呈现。

不论是五彩油漆泼洒出的「我爱Vidu」,还是深海鱼群排列出的「DEEP BLUE」,Q3都能在视频中,渲染出精确的文字。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

终于,AI视频里的文字,不再辣眼睛了。

一场叙事权的争夺

「视听生成」时代来了

如果跳出具体的技术参数,站在行业变迁的宏观视角重新审视Vidu Q3,便会发现——

它的出现,象征着AI视频生成领域,正经历一次关键的范式迁移。

长久以来,AI视频模型大多停留在「演技生成」的阶段。

不论是早期的Sora演示,还是后续的各类模型,它们解决的核心问题是:如何让画面动起来,如何保持高度一致性。

这种单维度的视频生成,导致创作者得到的往往只是一些精美的、却缺乏灵魂的动态素材。

Q3的真正价值,推动了行业从「演技生成」到「视听生成」时代的到来。

它不再只交付一些零碎的画面片段,而是一次直出完整的、声画共振的视听体验。

正如其Slogan所言——声画同出,创想无界,Q3将声音、画面、运镜、文本融合为一个不可分割的叙事整体。

这种能力的跃升,将为行业多领域的创作,带去深远的重构效应。

它为「剧」而生,对于影视行业者而言,Q3最大的意义在于它具备了真正的「叙事密度」。

在传统的影视工业中,从剧本到可视化的呈现,中间隔着漫长且昂贵的制作链条。Vidu Q3的出现,提供了一条极速通道。

有了全球首个16s音视频直出的能力,创作者可以在一段视频中,构建起完整的戏剧冲突。

以往AI视频难以处理复杂的对白和细腻的情感递进, Q3可以通过一次生成完成。

对于广告从业者而言,用AI视频生成往往很难在「创意」和「可控」之间找到比较好的平衡点。

Q3在画面一致性、文字渲染等突破,为广告营销提供了一套「可控的商业化解决方案」。

下面这个介绍智能手表的案例中,主播的口型与音色一致,表情动作也非常自然。

打开网易新闻 查看精彩图片

对于广大的自媒体创作者来说,Vidu Q3无异于一把打开流量大门的万能钥匙。

过去,制作一个高质量的视频,需要分别寻找画面素材、背景音乐、写文案配音、复杂的剪辑合成。

Q3的音视频一体化生成,彻底简化了这一流程。

比如想要出一期创意的播客视频,上传一张猫狗合照,输入你的脑洞指令。

打开网易新闻 查看精彩图片

小猫和小狗做电台

小狗说:主人说他不相信爱情了,只想搞钱

小猫说:那说明他既没爱情也没钱

说完后小猫小狗一起大声哈哈笑

原本静止的画面,瞬间变成了妙语连珠的脱口秀现场。

这种极低门槛、极高效率的生产方式,将彻底释放自媒体人的创造力。

或许不久的未来,将会看到更多由Q3赋能的「超级个体」,以惊人的速度产出媲美专业团队的视听内容。

为「剧」而生,让每个人都是导演

Vidu Q3的发布,标志着AI视频生成正式迈入了一个新纪元。

它不再是简单的「图片动起来」,而是真正意义上的「视听一体化创作」。

16秒,足够讲一个故事。声画同步,足够传递情绪。镜头语言,足够表达意图。

未来的视频创作,或许真的能让每个人,只需一个想法,就能成为自己故事的导演。

现在,Vidu Q3 已全面上线文生音视频、图生音视频功能。

快去试试吧,感受「声画同出,创想无界」的震撼。

邀请码:XZY2,登录Vidu.cn,注册即送500积分,快来体验Vidu Q3最新功能。

打开网易新闻 查看精彩图片