Video-MME是北京大学、香港大学等6所高校联手,发布的首个专为视频分析设计的多模态大模型评估基准。该数据集包含900个视频,总时长达256小时,研究人员通过反复观看视频内容,手动选择和注释共设计了2,700个高质量的多选题。数据集涵盖6大视觉领域,包括知识、电影与电视、体育竞赛、艺术表演、生活记录和多语言,并进一步细分为天文学、科技、纪录片等30个类别,视频长度从11秒到1小时不等。此外,Video-MME还整合字幕和音频轨道,增强了对视频理解的多模态输入分析。更难能可贵的是,Video-MME中所有数据,包括问答、视频、字幕和音频,都是手工收集和整理的,确保了该基准的高质量。该数据集的创建不仅为研究人员提供了一个富有挑战性的测试基准,也为研究外部信息对视频理解性能的影响提供了宝贵的资源。
详情请参见五号雷达:https://www.5radar.com/dataset?id=488cb10044aec2e9714e8a4eccc3b3b0
热门跟贴