Veo、Sora、Luma、Kling(可灵)、Genie 3等模型不断刷新大众对视频生成的认知时,一个更根本的问题开始浮现:视频生成模型,正在被当作“世界模型”来使用了吗?

无论是自动驾驶仿真、具身智能、影视制作,还是交互式内容生成,越来越多应用正在默认一个前提 --- 模型生成的视频,不应只是“看起来合理”,而是“可以当作一个世界的演化”,而这也对视频生成模型提出了远高于“画面好不好看”的要求。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

论文题目: VBench++: Comprehensive and Versatile Benchmark Suite for Video Generative Models 论文链接: https://ieeexplore.ieee.org/document/11250949 代码链接: https://github.com/Vchitect/VBench 项目主页: https://vchitect.github.io/VBench-project/
一、从“拍一段视频”,到“建模一个世界”

早期的视频生成,关注点很简单: 画面清不清晰?动作顺不顺?美不美?但当视频生成被推向更复杂的任务,这些标准开始显得不够用。一个世界模型级别的视频生成系统,至少要回答三件事:

  • 它能否从一个给定的世界状态继续生成?

  • 它能否在更长时间尺度上保持一致的世界规律?

  • 它在真实世界语境下,是否值得被信任?

换句话说:世界模型不只要会“生成”,还要 接得住、撑得久、靠得住。而这三点,恰恰是长期以来视频生成评测中被系统性忽略的部分。也正因此,VBench++ 的目标并不只是“跑分”或者“排名”,而是提供一套可解释、可复现、可诊断,并且能够覆盖 T2V / I2V / 长视频 / 可信性的系统性评测体系。

二、被忽视的第一道门槛:I2V,不只是“另一个任务”

在真实应用中,视频生成很少是“凭空开始”的。更多时候,模型面对的是: 一张已有的图像、一个当前世界状态、一个已经存在的场景。这正是 Image-to-Video(I2V) 的重要性:不是生成,而是“续写世界”。

然而,过去很长一段时间里,I2V 往往只是 T2V 的“附属测试”:

  • 不同模型被强行拉到同一分辨率

  • 不同宽高比被粗暴统一

  • 输入图像质量本身成为隐性瓶颈

结果是:评测结果往往混合了模型能力、设置偏置和输入退化

如果说 T2V 测的是视频生成模型“想象力”,那 I2V 测的,其实是世界模型中更关键的一点 --- 状态是否能被正确继承与演化。

三、让 I2V 更公平:Image Suite + 自适应宽高比:

I2V 的评测难点之一是“设置不统一”: 有的模型默认 1024×576,有的模型默认 256×256;有的偏 16:9,有的偏 1:1。把所有模型强行拉到同一分辨率,可能会引入额外的退化,导致评测不公。

为此,VBench++ 引入了面向 I2V 的 Image Suite。它不是随机抓的一堆图片,而是一个专门为 I2V 公平评测设计的图像测试集基准:

  • (1) 高分辨率:以 4K+ 图片为主,减少输入瓶颈对生成质量的限制

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  • (2)自适应宽高比:通过pipeline适配/覆盖一系列宽高比,尽量让模型在各自的“最优默认设置”下被评测

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

  • (3) 内容多样且均衡:覆盖前景 / 背景多类内容,强调类别内多样性

打开网易新闻 查看精彩图片

  • (4) 图文成对:每张图片配套精修文本提示,支撑 I2V 条件一致性评估,I2V 不再是“顺带测一下”,而是被当作世界模型能力的关键一环来认真对待。

第二道门槛:长时间一致性,才是真正的“世界”

很多视频生成模型,在前几秒表现得相当惊艳。但只要拉长时间尺度,问题就会逐渐显现:人物身份缓慢漂移,物体属性悄然改变,场景结构在不知不觉中崩塌。这些问题,在短视频里不一定明显,但在长序列中会被无限放大。

世界模型的难点,从来不在“第一帧”,而在“第 N 帧”。如果模型无法在更长时间跨度内维持一致的世界状态,那么它更像是在“不断重画”,而不是在“模拟世界”。

第三道门槛:当视频生成进入现实应用,评测也必须更谨慎地考虑“可信性

还有一个问题,过去很少被当作视频生成评测的核心维度:这个模型,是否值得被信任?当生成视频开始进入真实生产链路,以下问题无法回避:

  • 不同文化语境下,模型是否存在系统性偏差?

  • 人物生成中是否隐含性别或肤色偏置?

  • 是否会在看似普通的提示下生成不安全(色情暴力等)内容?

这些问题,并不会体现在“画面质量”或“语义贴合度”里,却直接决定模型能否被安全部署。世界模型不仅要“像”,还要“稳”和“负责任”。

VBench++ 将 Trustworthiness(可信性) 正式纳入评测框架,系统性地覆盖:

  • 跨文化一致性(Culture Fairness)

  • 性别与肤色偏差(Gender / Skin Tone Bias)

  • 安全性与风险内容(Safety)

这些维度同样配套了自动化评测方法,并通过大规模人类偏好标注进行对齐验证,让“可信性”评估不止停留在定性讨论。

评测的角色,正在发生变化

正是在这样的背景下,VBench++让视频生成评测开始从“跑分工具”转向“能力诊断”。它的目标并不只是“给模型排名”,而是提供一套 可解释、可复现、可诊断,并且能够覆盖 T2V / I2V / 长时一致性 / 可信性 的评测体系。

VBench++的核心思想并不复杂:

不要试图用一个分数概括一切,而是把“视频生成能力”拆解成可诊断的维度。

四、附录:VBench 系列榜单怎么用?

如果你想快速对比不同视频生成模型的能力,VBench 系列目前提供了多个互补的榜单入口。它们的区别不在于“谁更权威”,而在于你关注的任务形态与能力维度不同。

总榜入口(Leaderboard): https://huggingface.co/spaces/Vchitect/VBench_Leaderboard

下面是三个最常用的榜单:

(1) VBench-T2V 榜单:Text-to-Video 的“基础体检”

如果你评测的是文生视频(T2V),想知道模型在“生成质量 + 条件一致性”上的综合表现,从这里开始最合适。

  • 覆盖 16 个核心能力维度(更像一份结构化体检报告,而不是单一总分)

  • 收录 100+ 个 Text-to-Video 模型,更新频率高、对比范围广

  • 适合:做模型选型、快速定位“强项/短板”、写实验对比表格

打开网易新闻 查看精彩图片
(2) VBench-I2V 榜单:Image-to-Video 的“状态承接能力”对比

如果你关心的是 图生视频(I2V)—— 即“从给定世界状态继续生成”,那这个榜单更对口。重点评估:

  • 在给定输入图像条件下,模型能否稳定继承主体身份、场景信息

  • 当前覆盖约 30 个 I2V 模型(更聚焦、也更贴近应用落地场景)

  • 适合:I2V 模型选型、产品落地前的稳定性与一致性排查

打开网易新闻 查看精彩图片
(3) VBench-2.0 榜单:评“内在真实性”的更高阶考题

如果你更关注“世界模型味儿”——模型是否真的具备更强的物理规律、常识推理与结构化理解,那 VBench-2.0 是更合适的入口。 它评测的是模型的内在真实性(Intrinsic Faithfulness),包括但不限于:

  • 物理规律(Physics Plausibility)

  • 常识与因果一致性(Common Sense / Causality)

  • 人体解剖合理性(Human Anatomy)

  • 场景组合与结构约束(Composition / Structural Consistency)

这类能力往往不会在“短视频惊艳感”里直接体现,却会在更复杂、更长时程、更真实的任务里决定模型是否可靠。

打开网易新闻 查看精彩图片

五、写在最后

当视频生成逐渐被视为世界模型的一种实现形式,评测本身,也需要随之升级。I2V、长时一致性、可信性,并不是附加条件,而是世界模型无法绕开的基本门槛。VBench++ 希望为这个领域提供一把更锋利、也更负责任的尺子:不只告诉你“强不强”,更告诉你“强在哪里、差在哪里”。

合理的评测目标,本身就是指引下一阶段研究与应用的重要指南针。 视频生成的发展日新月异:从最初只能生成 1–2 秒的“一眼 AI 视频”,到如今在短视频场景中已足以以假乱真;从展示模型能力,到逐步走入真实生产与交互系统。当世界模型开始进入下游应用,整个领域都需要认真思考:下一步真正值得突破的瓶颈是什么?哪些能力必须被优先检验?又有哪些风险不能被忽视?

评测不应只是跟随模型进步的“事后记录”,而应成为定义问题、约束方向、引导研究的重要工具。

相关资料: 从视频生成到世界模型的路线图: https://world-model-roadmap.github.ioVBench 系列评测体系: https://github.com/Vchitect/VBench 视觉生成评测的论文资料库: https://github.com/ziqihuangg/Awesome-Evaluation-of-Visual-Generation 世界模型论文资料库: https://github.com/ziqihuangg/Awesome-From-Video-Generation-to-World-Model

VBench++ 并不试图给出终极答案,但希望至少让我们在追问一个更重要的问题时,有一把更清晰的尺子:

这个模型,真的在“理解并演化一个世界”吗?

欢迎使用、也欢迎来“挑战”这个 benchmark!更欢迎社区提出宝贵建议,与我们一起不断打磨评测目标、完善问题定义,为视频生成与世界模型的评测持续添砖加瓦。

llustration From IconScout By IconScout Store

-The End-

本周上新!

扫码观看!

“AI技术流”原创投稿计划


TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线700+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。


投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

michellechang@thejiangmen.com

或添加工作人员微信(michelle333_投稿,沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈