AI 会笑吗？BIGAI & 上交大团队：多模态大模型是否真的能 get 到视频笑点｜ACL 2026|上交大团队|卓别林|大模型|新论文|模态|视觉

v-HUB 基准将视频幽默理解聚焦于视觉线索与环境声音驱动的无对白短视频场景，系统揭示当前模型从“看见视频”到“理解笑点”之间仍有显著差距。

目前GPT、Gemini、Qwen这些多模态大模型，已经能识图、看视频、听声音。而像画面里有人摔倒、猫把球推进洞里、车门和喇叭配合出一段“停车场交响乐”，这些内容似乎只要模型能识别物体、动作和声音，就能顺带理解哪里好笑。因此你可能以为，让AI看懂一个搞笑短视频，并不算太难。

但对多模态大模型来说，看见画面真的等于理解幽默吗？幽默理解不是简单的物体识别，一个人摔了一跤为什么好笑，一块蛋糕切开后为什么像聊天气泡，一段背景音乐为什么能把画面变得更有梗，这些都需要模型同时理解动作、时序、常识、文化背景，以及视觉和声音之间的配合。

为探索这一问题，来自上海交通大学、武汉大学和北京通用人工智能研究院的研究团队构建了一个全新的评测基准v-HUB，系统地分析当前多模态大模型的视频幽默理解能力。

论文：https://arxiv.org/abs/2509.25773

项目主页：https://spatigen.github.io/vhub.io/

代码：https://github.com/spatigen/vhub

数据：

https://huggingface.co/datasets/Foreverskyou/v-HUB

看懂视频，不等于看懂笑点

过去不少视频幽默数据集，往往离不开台词、字幕或文本描述。模型看起来像是理解了幽默，但很多时候其实是在依赖语言线索。

这和真实世界并不完全一致，人类并不总是靠对白才会笑。幽默是一种特别的理解能力，它更多是藏在反差、时机、常识违背、文化背景和声音氛围里。

比如一个人翻动纸页，纸上的小人随着翻页动作逐渐“演奏”起来；或者有人说要做一个和聊天界面“一模一样”的生日蛋糕，结果蛋糕切开后真的还原了聊天气泡。这类笑点并不靠台词解释，而是靠视觉结构、时间顺序、音乐和观众的常识一起完成。

v-HUB 关注的正是这类更难的问题：当笑点主要来自视觉和环境声音，而不是对白和字幕时，模型还能不能理解？

基准构建流程

为了构建这个基准，研究团队从两个互补来源收集视频：一类是1914-1938年间卓别林默片中的幽默片段，另一类是来自互联网的用户生成搞笑短视频。前者强调经典肢体喜剧和视觉叙事，后者补充现代短视频场景、文化背景和表达方式。

在数据筛选阶段，团队仅保留时长5-60秒的视频，保证其笑点完整，避免片段过长导致任务变成剧情理解，并剔除低质量、有害或高度依赖语音的视频，同时通过人工与自动转写相结合的方式尽量减少语音依赖。最终构建的数据集共包含1218条视频，总时长约 4.7 小时，平均每条视频约 14 秒。其中包括267条卓别林默片幽默片段和 951 条用户生成短视频。同时数据集涵盖纯视觉、视觉加声音、视觉加文字、视觉加声音和文字4种模态组合，覆盖5种幽默类型和6类文化区域背景。

在数据标注阶段，团队保证每条视频都经过多轮人工标注，其中标注内容包括幽默等级、描述性标题、创意标题、视频描述、幽默解释、背景知识、幽默元素，以及是否存在视觉文字等。最后根据标注结果设计了Caption Matching、Humor Explanation和Open-ended QA三类任务来全面评测模型能力。

这样的设计让 v-HUB 不只是一个“判断好不好笑”的数据集，而是一个可以诊断模型从观察到解释全过程能力的评测框架。

几个值得注意的结果

研究者评测了7个前沿模型：Gemini-2.5-Flash、GPT-4o、Qwen2.5-VL (72B)、Intern3.5-VL (8B)、Video-SALMONN-2 (7B)、MiniCPM2.6-o (8B)和Qwen2.5-Omni (7B)。并根据它们在v-HUB上的实验结果得到了以下四点发现。

发现一：模型更依赖文字，而不是画面

最明显的现象是，模型在 Text-Only 设置下普遍表现更好。也就是说，当人类已经把视频内容写成详细文字描述后，模型的语言推理能力可以比较顺利地发挥出来。

但一旦换成原始视频输入，表现就会明显下降。例如在 Open-ended QA 任务上，Qwen2.5-VL 的 SentBERT 得分便从 Text-Only 的 0.760 降到 Video-Only 的 0.445。

这说明模型并不是完全不会推理幽默，而是很依赖别人先把视频“翻译”成文字。真正难的是第一步：从原始画面里捕捉细微动作、时间关系和反差。

发现二：模型会答题，但不一定会主动发现笑点

另一个有意思的现象是：模型在开放问答上往往比在幽默解释上表现更好。例如在Text-Only设置下，Qwen2.5-VL的SentBERT 得分从Open-ended QA任务中的 0.760 下降至Humor Explanation任务中的0.543。

原因也不难理解。开放问答通常会把注意力指向一个具体事实，比如“猫对球做了什么”“车旁边的人在做什么”。但幽默解释没有这么直接的提示，模型需要自己判断哪个动作、哪个声音、哪个反差才是笑点。

这就像一个人能回答“画面里有一只猫”，并不代表他理解“猫像台球高手一样把球推进洞里”为什么好笑。

发现三：声音有帮助，但效果有限

加入环境声音后，部分 OmniLLM 的表现确实有所提升。比如 MiniCPM2.6-o 在 Caption Matching 上从 Video-Only 的 0.362 提升到 Video+Audio 的 0.442；Qwen2.5-Omni 也从 0.553 提升到 0.617。

这说明背景音乐、音效、节奏感并不是装饰，它们本身就是理解幽默的一部分。尤其是短视频里，声音可以帮助模型判断动作的节奏、意外发生的时机，甚至补充文化线索。

不过，声音并不能完全弥补视觉理解的短板。Video+Audio的表现整体仍然明显落后于 Text-Only。这意味着现有模型还没有真正把视觉和声音融合成稳定的幽默理解能力，更多时候只是从声音中获得一点额外提示

发现四：视觉文字、背景知识和时代语境，都是隐形线索

除了声音，研究团队还进一步分析了视觉文字和背景知识的作用。结果显示，包含视觉文字的视频通常更容易被模型理解，尤其是在声音不能直接贡献笑点时，屏幕文字会成为很重要的补充线索。例如Gemini-2.5-Flash 在Caption Matching任务上的准确率便从 0.569 提升到 0.715。可见模型不是只在“听到好笑声音”时才变好，屏幕文字本身就能帮助模型更好地抓住笑点。

背景知识也很关键。对于需要外部知识的视频，如果显式提供背景信息，模型的解释能力会提高。例如 Qwen2.5-Omni 在 Video+Audio 设置下，当提供背景知识时，在Humor Explanation任务上的SentBERT得分为0.512，而没有背景知识时的得分为0.459。这说明模型并不是完全没有相关常识，但它未必会在合适的时候把常识调出来。而把背景知识明确告诉它，就像给它补了一句“你需要这样看这个梗”，表现自然会更好。

还有一个容易被忽略的点：模型理解当代短视频，比理解更早期的默片幽默更容易。卓别林式默片喜剧高度依赖肢体表演、时代语境和经典喜剧结构，对模型来说反而更难。原因可能在于，默片的表达方式、表演节奏和社会语境都与今天的短视频不同。人类可以借助文化经验和影视经验理解这种喜剧，但模型对这些时代差异的把握仍然有限。