打开网易新闻 查看精彩图片

超越 Sora 2,Vidu Q3 位居全球第二、中国第一。

作者丨王晓然

编辑丨马晓宁

打开网易新闻 查看精彩图片


快过春节了,来整一个花活儿,想看灭霸和复仇者联盟成员一起放烟花

这段视频是在 Vidu Q3 中,仅用一段 Prompt 一次生成得来,不仅能够声画同步,高清直出,而且还能转换多个镜头,完成一个场景叙事。

Sora 之后,AI 视频生成在拼命卷时长。Sora 刚发布的时候,只能生成 5 秒左右的视频,而 Vidu 最近发布了全球首个支持音视频直出的模型 Vidu Q3 ,能实现16秒声画同出,并且叙事能力更强,在镜头控制、文字渲染、多国语言上都有所突破。

在国际权威AI基准测试机构Artificial Analysis最新公布的榜单中,生数科技的 Vidu Q3 凭借其在一致性、叙事性和音画同步上的极致表现,位居全球第二、中国第一。它不仅在评分上硬刚马斯克的 xAI Grok,更是超越了 Runway Gen-4.5、Google Veo 3.1 和 OpenAI Sora 2,成为了领跑视频生成下半场的关键变量。

打开网易新闻 查看精彩图片

在生数科技的产品生态中,Vidu Q3 聚焦于漫剧、短剧、影视剧行业,其生成能力到底水平如何,我们用几个 Prompt 试试就知道。

01
16s,完成宫斗剧中的一次诀别

过去,AI 视频生成由于压缩能力导致的一大深层痛点在于叙事断裂,一次只能生成5-8 秒的时长,这使得生成内容更像是毫无灵魂的“素材碎片”而非逻辑完整的“叙事内容”。

基于此,创作者为了拼凑出一段30秒的剧情,不得不频繁开盲盒式地生成多个素材,再面对不同批次间光影失真、人物走形、逻辑错乱等致命伤进行后期“缝补”。

而 Vidu 不仅将单次生成时长拓展至 16 秒,更关键的是通过底层架构的革新,保证了这 16 秒内角色、场景、光影、声音、画面与叙事逻辑的高度一致性。

16 秒,在影视语言中已足以构建一个完整的叙事单元,比如一个角色从疑惑到恍然大悟的表情转变、一次从平静到冲突的对话交锋,或是一个关键道具被揭示并引发悬念的经典桥段。

为了验证 Vidu Q3 「16s音视频直出」的功力,我们重点考察它在复杂场景中能否把画面情绪、角色对白、环境音效这几股线自然地结合在一起。

拿最经典的宫斗场景为例,宫斗剧对古装场景画面、人物情绪、固定时间内的叙事节奏要求都比较高,因此输入的 prompt 了包含特写、对白和具体环境音的提示词:

打开网易新闻 查看精彩图片

生成的结果还算到位,女子眼眶泛红、声音凄厉颤抖的质问,与脸上滑落的泪珠完全同步,情绪是顶上去的。

背景里,窗外的风声和远方的丧钟声不是简单的铺底,而是随着她话音落下才隐隐浮现,把悲凉又压抑的氛围烘托了出来。对面男子冰冷的回答,其声音等语调和画面里他漠然的表情严丝合缝。

光有剧情还不够,我们想知道它在更写实、信息更嘈杂的环境里会如何表现。

因此,第二个场景来到「雨夜的伦敦火车站」,这里要求的声音元素多且密:清晰的英语对白、突出的火车汽笛、零碎的雨打顶棚声、还有作为背景模糊处理的广播。

打开网易新闻 查看精彩图片

生成效果可以说是没有瑕疵,西装男焦急的脚步声始终保持在最前面且十分清晰,而汽笛声随着火车驶进站内开始由远及近响起,淅淅沥沥的雨声很轻没有抢戏。并且其中London 站牌的名字居然都拼对了,这个也是 Vidu Q3 的重要能力,具体测评渲染能力的案例稍后展示。

这一条视频的细节可以说是令人惊喜的,可以见得,Vidu Q3 的声音分层与空间感构建能力、主次音源处理能力、模拟出的真实环境混响能力都很顶。

对于节奏极快、音画切换频繁的现代音乐内容,我们采用图生视频的方式测试纽约街头的说唱。

打开网易新闻 查看精彩图片

结果生成的视频让人很有代入感,rapper 激昂的说唱嘴型与鼓点、贝斯的节奏卡得非常准,每个重音都砸在了剪辑点上。镜头在手势、表情和面部特写间的快速切换,也完美踩在了音乐的律动上。

02
大师级运镜,短剧中巴掌扇得更丝滑

AI视频生成中,最常遇到的一个穿帮点就是镜头语言。

许多模型能生成一段几秒的稳定画面,但一旦涉及镜头切换、视角转换、景别变化,问题就会出现。可能在运镜过程中出现画面主体扭曲、场景撕裂,更常见的是,多镜头之间缺乏叙事节奏和情绪连贯性,看起来像几段独立视频的生硬拼接。

可以说,「多镜头运镜」是区分「会动的画」和「有叙事感的视频」的核心能力,它考验的是模型对空间连续性、时间逻辑和视觉叙事语法的综合理解。

先测试看一个快节奏短剧中的镜头切换,选用短剧中常见的咖啡厅决裂戏码:

打开网易新闻 查看精彩图片

这个片段最惊艳的地方在于节奏感抓得很准很舒服。特写镜头里戒指的反光细节很真实,切到近景时,男士说话的口型跟台词对得很严,女士站起来后的头发的飘动很自然,扇巴掌的动作、声音也足够丝滑。

接下来测试最考验节奏感的动作场景。提示词明确要求了“特写→远景→中景”的快速切换。

打开网易新闻 查看精彩图片

整个片段可以说是一气呵成了。特写镜头中惊恐的双眼和汗珠极具张力;切至远景时,黑影在巷尾的闪动自然且位置连贯;切回中景时,主角朝向镜头的奔跑与之前的空间关系完全吻合。

更出色的是,音效与镜头实现了精准配合:特写时喘息声很近,切远景时声音随之拉远并突出脚步回声,切回中景时喘息声再次迫近。

第二个场景侧重视角转换,第一人称→全景→特写,也伴随氛围变化的运镜。

打开网易新闻 查看精彩图片

从实际表现来看,切换到镜头二的全景时,人物与石门的巨大比例对比震撼,且视角转换无比自然,没有出现「跳帧」或场景重置;镜头三对石门图腾的特写,可以看作是全景镜头的自然推进与聚焦。

03
渲染能力出色,漫剧轻松拿捏

对于生成式 AI 视频而言,能否稳定、精准地生成与画面风格融合的文字,往往是其能否胜任“专业级制作”的硬性门槛。

过往很多模型在渲染文字时,容易出现笔画错乱、字符闪烁、风格撕裂,或者与画面光影严重不符的情况,这使得生成的内容很难直接用于对细节有要求的商业短片、漫剧或剧情向内容。

Vidu Q3 具有较强的文字渲染能力,可精准渲染中、英、日三种文字。先从一个相对静态但要求极高的场景开始:产品展示,要求生成一架无人机,机翼上需清晰呈现具有金属蚀刻感的英文「Vidu Q3」。

打开网易新闻 查看精彩图片

效果表现中,无人机的极简设计感十足,而机翼侧面的“Vidu Q3”字样并非简单“贴”上去,而是真正模拟出了金属蚀刻的质感和深度。随着无人机缓缓旋转,文字表面的反光与外壳一同折射出细腻的夕阳余晖,光影变化自然统一。

接下来,挑战一下风格化与动态渲染:一个热血日漫风格的场景,包含动态的日语喊话。

打开网易新闻 查看精彩图片

这个案例综合展示了 Vidu Q3 的综合能力,一是对特定艺术风格(日漫)的精准把握,二是在极限动态场景中,保持画面、音效超高同步性与表现力。

最后测试一个充满张力的古装武侠场景,包含中文对白和激烈的动作戏。

打开网易新闻 查看精彩图片

Vidu Q3 的这个画面美感是超出预期。在激烈的武打动作中,能够很好地保持画面的稳定和连贯,证明了其对中文对白字幕的专业化处理能力,并且在这一效果中,字幕成为了增强叙事沉浸感的一部分,而非后期生硬的添加。这种生成程度已经可以应用于短剧、漫剧制作等场景中了。

04
结语

2024 年,AI 视频生成行业崭露头角,经过两年时间的发展,整个行业则会向更成熟的方向发展。

Vidu Q3 的意义不仅仅在于“16秒的音视频直出”和“中国第一”,也许其更广泛的意义在于,在降低视频制作门槛的同时还增加了精准的控制程度。

「控制」二字似乎从未远离过影视制作行业,从演员对神态、语言的控制,到导演对画面、风格的控制,再到到摄影师对镜头、画面的控制,这是贯穿视频制作始终的二字。

而要实现内容的完美呈现和控制,过去这需要包括导演、摄影师、后期特效等一个专业团队反复打磨才能精准实现。

现在来看,Vidu Q3 能让专业的内容创作者直接“调度”角色姿态、运镜方式、场景细节乃至情绪氛围,实现精细化的“导演级”控制,脑海中抽象的创意可以快速、精准地转化为高质量的视频片段。

除此之外,影视行业中常常受限于实拍成本、演员档期、特效预算或特殊场地。这些传统的问题也能被有效弥合,Vidu Q3 极大地降低了高质量视觉内容的制作门槛,作者可以无成本地生成现实中难以拍摄或造价高昂的场景。

不仅如此,Vidu Q3 让普通的门外汉,也能制作出有审美、有品味的大片。回想当时抖音的出现,降低了人们进行内容表达的门槛,让即使受教育程度不高的人,只需点一下「录制」的圆形按钮,就能自由地使用视频这种去表达自己的观点和内容。

而如今的Vidu Q3正在做着类似的事情。 Vidu Q3 不再是束之高阁的AI玩具,而是有能力真正深入到了漫剧、短剧、影视剧的制作核心。

Vidu Q3体验地址:https://www.vidu.cn

Vidu API地址:https://platform.vidu.cn

登陆 Vidu.cn 注册,使用 AI 科技评论邀请码:AIKJPL,即可获得500积分。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。