【五号雷达-数据快讯】Video-MME 视频分析多模态评估基准数据集

五号数据雷达

2024-06-11 15:34 ·上海

Video-MME是北京大学、香港大学等6所高校联手，发布的首个专为视频分析设计的多模态大模型评估基准。该数据集包含900个视频，总时长达256小时，研究人员通过反复观看视频内容，手动选择和注释共设计了2,700个高质量的多选题。数据集涵盖6大视觉领域，包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言，并进一步细分为天文学、科技、纪录片等30个类别，视频长度从11秒到1小时不等。此外，Video-MME还整合字幕和音频轨道，增强了对视频理解的多模态输入分析。更难能可贵的是，Video-MME中所有数据，包括问答、视频、字幕和音频，都是手工收集和整理的，确保了该基准的高质量。该数据集的创建不仅为研究人员提供了一个富有挑战性的测试基准，也为研究外部信息对视频理解性能的影响提供了宝贵的资源。

详情请参见五号雷达：https://www.5radar.com/dataset?id=488cb10044aec2e9714e8a4eccc3b3b0

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴