v-HUB 基准将视频幽默理解聚焦于视觉线索与环境声音驱动的无对白短视频场景,系统揭示当前模型从“看见视频”到“理解笑点”之间仍有显著差距。
目前GPT、Gemini、Qwen这些多模态大模型,已经能识图、看视频、听声音。而像画面里有人摔倒、猫把球推进洞里、车门和喇叭配合出一段“停车场交响乐”,这些内容似乎只要模型能识别物体、动作和声音,就能顺带理解哪里好笑。因此你可能以为,让AI看懂一个搞笑短视频,并不算太难。
但对多模态大模型来说,看见画面真的等于理解幽默吗?幽默理解不是简单的物体识别,一个人摔了一跤为什么好笑,一块蛋糕切开后为什么像聊天气泡,一段背景音乐为什么能把画面变得更有梗,这些都需要模型同时理解动作、时序、常识、文化背景,以及视觉和声音之间的配合。
为探索这一问题,来自上海交通大学、武汉大学和北京通用人工智能研究院的研究团队构建了一个全新的评测基准v-HUB,系统地分析当前多模态大模型的视频幽默理解能力。
论文:https://arxiv.org/abs/2509.25773
项目主页:https://spatigen.github.io/vhub.io/
代码:https://github.com/spatigen/vhub
数据:
https://huggingface.co/datasets/Foreverskyou/v-HUB
01
看懂视频,不等于看懂笑点
过去不少视频幽默数据集,往往离不开台词、字幕或文本描述。模型看起来像是理解了幽默,但很多时候其实是在依赖语言线索。
这和真实世界并不完全一致,人类并不总是靠对白才会笑。幽默是一种特别的理解能力,它更多是藏在反差、时机、常识违背、文化背景和声音氛围里。
比如一个人翻动纸页,纸上的小人随着翻页动作逐渐“演奏”起来;或者有人说要做一个和聊天界面“一模一样”的生日蛋糕,结果蛋糕切开后真的还原了聊天气泡。这类笑点并不靠台词解释,而是靠视觉结构、时间顺序、音乐和观众的常识一起完成。
v-HUB 关注的正是这类更难的问题:当笑点主要来自视觉和环境声音,而不是对白和字幕时,模型还能不能理解?
02
基准构建流程
为了构建这个基准,研究团队从两个互补来源收集视频:一类是1914-1938年间卓别林默片中的幽默片段,另一类是来自互联网的用户生成搞笑短视频。前者强调经典肢体喜剧和视觉叙事,后者补充现代短视频场景、文化背景和表达方式。
在数据筛选阶段,团队仅保留时长5-60秒的视频,保证其笑点完整,避免片段过长导致任务变成剧情理解,并剔除低质量、有害或高度依赖语音的视频,同时通过人工与自动转写相结合的方式尽量减少语音依赖。最终构建的数据集共包含1218条视频,总时长约 4.7 小时,平均每条视频约 14 秒。其中包括267条卓别林默片幽默片段和 951 条用户生成短视频。同时数据集涵盖纯视觉、视觉加声音、视觉加文字、视觉加声音和文字4种模态组合,覆盖5种幽默类型和6类文化区域背景。
在数据标注阶段,团队保证每条视频都经过多轮人工标注,其中标注内容包括幽默等级、描述性标题、创意标题、视频描述、幽默解释、背景知识、幽默元素,以及是否存在视觉文字等。最后根据标注结果设计了Caption Matching、Humor Explanation和Open-ended QA三类任务来全面评测模型能力。
这样的设计让 v-HUB 不只是一个“判断好不好笑”的数据集,而是一个可以诊断模型从观察到解释全过程能力的评测框架。
03
几个值得注意的结果
研究者评测了7个前沿模型:Gemini-2.5-Flash、GPT-4o、Qwen2.5-VL (72B)、Intern3.5-VL (8B)、Video-SALMONN-2 (7B)、MiniCPM2.6-o (8B)和Qwen2.5-Omni (7B)。并根据它们在v-HUB上的实验结果得到了以下四点发现。
发现一:模型更依赖文字,而不是画面
最明显的现象是,模型在 Text-Only 设置下普遍表现更好。也就是说,当人类已经把视频内容写成详细文字描述后,模型的语言推理能力可以比较顺利地发挥出来。
但一旦换成原始视频输入,表现就会明显下降。例如在 Open-ended QA 任务上,Qwen2.5-VL 的 SentBERT 得分便从 Text-Only 的 0.760 降到 Video-Only 的 0.445。
这说明模型并不是完全不会推理幽默,而是很依赖别人先把视频“翻译”成文字。真正难的是第一步:从原始画面里捕捉细微动作、时间关系和反差。
发现二:模型会答题,但不一定会主动发现笑点
另一个有意思的现象是:模型在开放问答上往往比在幽默解释上表现更好。例如在Text-Only设置下,Qwen2.5-VL的SentBERT 得分从Open-ended QA任务中的 0.760 下降至Humor Explanation任务中的0.543。
原因也不难理解。开放问答通常会把注意力指向一个具体事实,比如“猫对球做了什么”“车旁边的人在做什么”。但幽默解释没有这么直接的提示,模型需要自己判断哪个动作、哪个声音、哪个反差才是笑点。
这就像一个人能回答“画面里有一只猫”,并不代表他理解“猫像台球高手一样把球推进洞里”为什么好笑。
发现三:声音有帮助,但效果有限
加入环境声音后,部分 OmniLLM 的表现确实有所提升。比如 MiniCPM2.6-o 在 Caption Matching 上从 Video-Only 的 0.362 提升到 Video+Audio 的 0.442;Qwen2.5-Omni 也从 0.553 提升到 0.617。
这说明背景音乐、音效、节奏感并不是装饰,它们本身就是理解幽默的一部分。尤其是短视频里,声音可以帮助模型判断动作的节奏、意外发生的时机,甚至补充文化线索。
不过,声音并不能完全弥补视觉理解的短板。Video+Audio的表现整体仍然明显落后于 Text-Only。这意味着现有模型还没有真正把视觉和声音融合成稳定的幽默理解能力,更多时候只是从声音中获得一点额外提示
发现四:视觉文字、背景知识和时代语境,都是隐形线索
除了声音,研究团队还进一步分析了视觉文字和背景知识的作用。结果显示,包含视觉文字的视频通常更容易被模型理解,尤其是在声音不能直接贡献笑点时,屏幕文字会成为很重要的补充线索。例如Gemini-2.5-Flash 在Caption Matching任务上的准确率便从 0.569 提升到 0.715。可见模型不是只在“听到好笑声音”时才变好,屏幕文字本身就能帮助模型更好地抓住笑点。
背景知识也很关键。对于需要外部知识的视频,如果显式提供背景信息,模型的解释能力会提高。例如 Qwen2.5-Omni 在 Video+Audio 设置下,当提供背景知识时,在Humor Explanation任务上的SentBERT得分为0.512,而没有背景知识时的得分为0.459。这说明模型并不是完全没有相关常识,但它未必会在合适的时候把常识调出来。而把背景知识明确告诉它,就像给它补了一句“你需要这样看这个梗”,表现自然会更好。
还有一个容易被忽略的点:模型理解当代短视频,比理解更早期的默片幽默更容易。卓别林式默片喜剧高度依赖肢体表演、时代语境和经典喜剧结构,对模型来说反而更难。原因可能在于,默片的表达方式、表演节奏和社会语境都与今天的短视频不同。人类可以借助文化经验和影视经验理解这种喜剧,但模型对这些时代差异的把握仍然有限。
因此视频幽默不是孤立的视觉识别任务,它还牵涉文化、年代、常识和表达习惯。模型要真正“懂笑点”,就必须把这些隐形线索一起纳入推理。
03
三个具体案例
论文中的三个案例刚好暴露了当前模型在细粒度视觉、跨模态融合和视觉文字理解上的不同短板。
案例一:小猫打台球
第一个视频里,小猫用爪子抓住球,并把球放进洞里。人类会觉得好笑,是因为这只猫的动作像是在认真完成一次台球击球,带有拟人化和反差感。
有意思的是,在Caption Matching任务上,模型在三种输入设置下都能回答正确;但在Open-ended QA任务上,只看视频时却回答“小猫没有和球互动”,尽管添加了声音后有一定的改进,但也只是简短地回答“推了一下”。这说明模型可能通过局部线索或选项排除猜中了标题,却没有稳定理解关键动作。
案例二:停车场“交响乐”
第二个视频更依赖声音。两个人在车旁边开关车门,用车门声配合喇叭声,制造出一种混乱但有节奏的“停车场合奏”。
只看视频时,模型在Caption Matching任务上则回答错误,把视频理解成别的场景;加上声音后,它能够选回“parking garage symphony”相关的正确标题。
但问题还没完全解决。在Open-ended QA任务上,模型仍可能把两个人的动作说成“说话”或“推车”。这说明声音可以帮助模型捕捉整体氛围,却不一定能自动修正视觉动作识别的错误。
案例三:免费WiFi
第三个视频里,一张“FREE WIFI”告示看起来很普通,但镜头一路拉开后,观众发现密码长到几乎贴满墙。笑点则来自“每个人都能用免费WiFi”和“密码长到没人想输”之间的反差。
这个案例考验的则是视觉文字和场景语义。在Open-ended QA任务上,如果只看视频,模型会认为“WiFi 不能用”;但当输入信息不断变得充分,模型也更接近正确答案:不是 WiFi 坏了,而是密码太长。
04
结语:AI 离“会笑”还有多远?
当前视频理解领域已经有很多benchmark可以衡量模型能否识别动作、描述事件、回答事实问题。但幽默理解则更进一步:它要求模型知道什么是正常,什么是意外,为什么这个意外值得一笑。而从 v-HUB 的结果看,今天的多模态大模型已经能看见很多东西,也能在提示充分的情况下解释一部分笑点。
但真正的人类式幽默理解,往往发生在没有提示的瞬间:看到一个动作、听到一个声音、读到一行字,然后立刻意识到“不对劲但很好笑”。这一步仍然是当前模型的短板,因此未来的 AI 如果要更自然地陪伴、协作和交流,不仅要看见世界,更要理解人类为什么会对某个场景产生情绪反应。
05
作者
施郑鹏,本文第一作者,现为上海交通大学人工智能学院硕士一年级学生,师从赵波老师。主要研究方向为多模态大模型与大模型智能体,相关成果发表于 ACL 等 CCF A 类会议。
——本篇文章论文作者拥有所有权,转载请联系论文作者
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴