打开网易新闻 查看精彩图片

新智元报道

编辑:alan 好困

【新智元导读】近日,首个多模态LLM视频分析综合评估基准Video-MME诞生!在这场全新的考试中,Gemini 1.5 Pro一路遥遥领先,谷歌首席科学家Jeff Dean更是愉快地连续转了3次推。

大模型性能哪家强?GPT-4一家常霸榜。

基准测试全擅长,竞技场上见真章。

打开网易新闻 查看精彩图片

不过近日,谷歌的Gemini终于扬眉吐气了一把,在全新的、更复杂的多模态考试中大获全胜,全面超越了GPT-4o。

Jeff Dean表示:已阅,很赞。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这就是来自中科大,厦大,港大,北大,港中文和华师大的研究者联合奉献的,世界上首个多模态LLM视频分析综合评估基准——Video-MME。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/pdf/2405.21075

项目地址:https://video-mme.github.io/

在前往AGI的道路上,多模态大语言模型(MLLM)显然成为当前的焦点。

不久前出世的GPT-4o,就在多模态的表现上技惊四座;同时,偏爱谷歌「双子座」的网友也不在少数。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

不过之前的相关基准测试,主要关注LLM在静态图像理解方面的能力。

而对于现实世界来说,处理连续视觉数据,也就是视频的能力,是至关重要的。

打开网易新闻 查看精彩图片

Video-MME是有史以来第一个为视频分析精心设计的,综合多模态基准测试,帮助我们全面评估MLLM捕捉现实世界动态性质的能力。

Video-MME涵盖了广泛的视觉域、时长和数据模式,包括900个视频,总时长256小时,还人工注释了2700个高质量的问答对(多项选择题,每个视频3个)。

下图是其中一个例子:

准确回答该问题需要同时从视频帧、字幕or语音中同时获取信息,并且信息直接的跨度达30分钟

打开网易新闻 查看精彩图片

在时间维度上,Video-MME中收集了各种不同时长的视频。

包括短视频(< 2分钟)、中视频(4分钟~15分钟)和长视频(30分钟~60分钟),总体时长从11秒到1小时不等。

打开网易新闻 查看精彩图片

从视频类型多样性来看,Video-MME跨越了6个主要视觉领域:知识、影视、体育比赛、生活记录和多语言,包含有30个子领域,以确保广泛的场景泛化性。

在数据模式的广度上,Video-MME整合了视频帧以外的多模态输入,包括字幕和音频,以评估MLLM的全方位能力。

此外,Video-MME中所有数据都是由人类新收集和标注,而不是来自任何现有的视频数据集,以确保数据的多样性和质量。

研究人员使用Video-MME,对各种最先进的MLLM进行了基准测试,包括GPT-4V、GPT4o和Gemini 1.5 Pro,以及开源图像模型InternVL-Chat-V1.5和视频模型LLaVA-NeXT-Video等。

打开网易新闻 查看精彩图片

实验表明,Gemini 1.5 Pro是目前性能最高的商用MLLM,平均准确率为75%,GPT系列的最好成绩是GPT-4o的71.9%。

相比之心,开源MLLM仍有巨大差距,表现最好的VILA-1.5以及LLaVA-NeXT-Video的总体准确率分别只有59和52%,开源社区还有相当大的提升空间。

打开网易新闻 查看精彩图片

此外,通过将输入扩展到多帧图像,Video-MME也可用来评估基于图像的MLLM,例如Qwen-VL-Max和InternVL-Chat-V1.5。

两种模型的准确度均达到51%左右,接近视频专用模型LLaVA-NeXT-Video,这表明图像理解是视频理解的基础,所以Video-MME在MLLM评估领域具有广泛的适用性。

下面,换个视角,看看这些MLLM在不同任务类型下的表现:

打开网易新闻 查看精彩图片

——Gemini 1.5 Pro 最终还是压制住了 GPT-4o!

我们再把Gemini 1.5 Pro单独拉出来开个小灶,详细给出不同视频时长和不同视频类型下的评估结果:

打开网易新闻 查看精彩图片

通过对上表的进一步观察,我们还可以发现,整合字幕和音频可以显著增强LLM的视频理解能力。

Gemini 1.5 Pro在加入字幕和音频之后,准确度分别提高了6.2%和4.3%,长视频则更为明显。

对任务类型的细粒度分析表明,字幕和音频对于需要大量领域知识的视频特别有益。

当然了,随着视频长度的增加,MLLM性能普遍下降,所以处理长视频仍然是件困难的事情。

下面给出Gemini 1.5 Pro在不同视频子类型上的评估结果,包括天文学、技术、纪录片、新闻报道、电子竞技、魔术表演和时尚等30个子类别。

打开网易新闻 查看精彩图片

Video-MME

数据集构建

Video-MME的数据集构建过程包括视频采集、问答对标注、质量审核三个步骤。

视频采集

为了全面覆盖不同的视频类型,研究人员创建了一个域层次结构,用于从网络上收集原始视频。

首先定义6个关键领域:知识、电影和电视、体育比赛、生活记录和多语言。

每个领域进一步划分为详细的标签,例如体育比赛包含足球和篮球,从而产生总共30个细粒度的视频类。

打开网易新闻 查看精彩图片

对于每个类型,收集不同持续时间的视频:短视频(少于2分钟)、中视频(4-15分钟)和长视频(30-60分钟)。

此外,还会获取相应的元信息,例如字幕和音频,用于进一步研究。最终的数据集由900个视频组成,这些视频跨越各个领域,持续时间长度相对平衡。

打开网易新闻 查看精彩图片

问答标注

在收集原始视频数据后,研究者对以问答对的形式对其进行注释,以评估MLLM在解释视频内容方面的熟练程度。

这里采用多项选择题的QA格式,参与标注的作者都精通英语,在视觉语言学习方面具有丰富的研究经验。

打开网易新闻 查看精彩图片

标注者通过反复观看视频来提出3个相关的问题,每个问题有4个潜在选项。这2700个QA对包含12种任务类型,比如感知、推理和信息概要。

质量审核

为了保证数据集的质量,作者还进行了严格的人工审查流程。

首先,指派不同的标注者来检查每个QA对,确保语言表达正确且明确,以及问题可回答(候选选项和正确选项都是合理的)。

此外,为了确保问题足够具有挑战性,要求多模态模型看了视频才能回答,研究人员向Gemini 1.5 Pro提供了纯文本问题,并过滤掉可以仅根据文本问题回答的QA对。

最后,Gemini 1.5 Pro在仅使用文本提问的情况下,准确率低于 15%。

数据集统计

视频和元信息

Video-MME总共包含900个视频、713个字幕和869个音频文件。

从任务类型的分布来看,较短的视频主要涉及与感知相关的任务,例如动作和物体识别。相比之下,较长的视频主要以与时间推理相关的任务为特色。从下表中可以看到,Video-MME的有效时长(Certificate Length准确回答问题所需的时间跨度)非常长,表明了其挑战性。

打开网易新闻 查看精彩图片

问答数据

关于问题和答案的语言多样性,下表列出了数据集中文本字段的平均字数。

问题、选项和答案的字数在不同视频长度上显示出显著的一致性,这表明Video-MME中的QA对风格一致。

打开网易新闻 查看精彩图片

另一方面,字幕的字数随着视频长度的增加而显着增加,短视频的平均字数为198.6,而长视频子集的字数高达6.5K。这一趋势表明,较长的视频包含的信息更多。

此外,问题对应的正确答案选项(A/B/C/D)的分布接近均匀(25.2%/27.2%/25.2%/22.3%),确保了无偏的评估。

参考资料:

https://x.com/_TobiasLee/status/1801984539470012554

打开网易新闻 查看精彩图片