GPT-4o 在首个多任务长视频评测基准 MLVU 中的表现并不理想,单选正确率不足 65%。
![](http://dingyue.ws.126.net/2024/0623/01a6a1d6j00sfjh7x002jd200m70099g00it007u.jpg)
打开网易新闻 查看精彩图片
![](http://dingyue.ws.126.net/2024/0623/592c8a10j00sfjh7z00fyd200u000k1g00it00cj.jpg)
打开网易新闻 查看精彩图片
![](http://dingyue.ws.126.net/2024/0623/708846c0j00sfjh7z001cd200gk00dqg00gk00dq.jpg)
打开网易新闻 查看精彩图片
问题设置与标注合理性:例如,情节问答任务中使用“具有详细细节的代词”指代人物和事件,避免了问题泄露,并增强了评测的合理性和可靠性。这种精细的标注方法确保了评测结果的准确性。
![](http://dingyue.ws.126.net/2024/0623/508d5ef5j00sfjh80003yd200m500d9g00it00b9.jpg)
打开网易新闻 查看精彩图片
![](http://dingyue.ws.126.net/2024/0623/2f67ad67j00sfjh8301afd200u0016wg00it00qv.jpg)
打开网易新闻 查看精彩图片
开源模型与闭源模型差距:开源模型如InternVL-1.5和LLaMA-Vid在单项选择和开放生成题目中的成绩远低于GPT-4o,揭示了显著的性能差异。这反映了不同 MLLMs 在长视频理解方面的不均衡发展。
![](http://dingyue.ws.126.net/2024/0623/8fcc9ef1j00sfjh85009ed200u000h8g00it00as.jpg)
打开网易新闻 查看精彩图片
上下文窗口和图像理解能力:提升上下文窗口大小和增强图像理解能力可以显著提高长视频理解的性能。这表明处理长视频时,模型需要更大的上下文容量和更强的视觉理解功能。
![](http://dingyue.ws.126.net/2024/0623/8c72ca94j00sfjh8600gxd200u000apg00it006p.jpg)
打开网易新闻 查看精彩图片
强大的LLM Backbone:使用更强大的语言模型(LLM)Backbone也是提升性能的关键因素。这意味着基础模型的强大和灵活性对长视频理解至关重要。
![](http://dingyue.ws.126.net/2024/0623/3235c5a2j00sfjh8700eed200u000ndg00it00en.jpg)
打开网易新闻 查看精彩图片
![](http://dingyue.ws.126.net/2024/0623/e2d52b07j00sfjh880066d200u000esg00it0099.jpg)
打开网易新闻 查看精彩图片
![](http://dingyue.ws.126.net/2024/0623/47565baaj00sfjh8a003qd200u00089g00it0056.jpg)
打开网易新闻 查看精彩图片
持续的研究和发展:MLVU的发布填补了长视频理解评估基准的空白,但仍需不断更新和扩展覆盖的视频类型及评估任务,以适应不断发展的技术需求。
版权声明:图片和内容来源互联网
热门跟贴