近年来,基于多模态数据的语义理解与认知探索成为了人工智能领域的一个重要研究热点,旨在使计算机拥有针对多种模态数据的表示、计算与推理能力。实际上,人类的认知是基于多模态信息产生的,比如人可以同时利用视觉和听觉信息理解说话者的情感,可以通过视觉信息补全文本中的缺失信息等。多模态数据建模是使模型模仿人类处理多模态信息的方式,将不同模态信息进行融合,学习不同模态信息之间的关联,从而可以融合视觉、听觉和自然语言信息,进行数据语义的综合理解。多模态预训练模型是学术界内一种流行的通用技术范式,能够利用互联网上大量无标注的多模态数据设计自监督的学习任务,从而进行模型的学习,达到对数据的语义理解。
目前,多模态预训练模型已经能够在多个下游的多模态数据挖掘任务(如以文搜图等)中取得比专门针对这些任务设计的监督模型更佳的效果。然而,如何设计好的自监督学习任务,使多模态预训练模型在广泛的下游任务上的效果得到整体提升,以及如何充分利用大量无标注多模态数据的内在语义模式,都需要进一步探索。此外,基于中文的多模态预训练模型更是鲜有研究,已有的预训练模型还无法直接应用于中文语境。
多模态预训练模型的概念和近期研究工作
大规模预训练模型始于文本领域,已经成为自然语言处理中的一种通用模型范式。它可以利用海量的无标注文本数据进行预训练,使模型进行自监督学习,从而在多种自然语言处理任务上取得显著的性能提升(如BERT、GPTP等)。随着单模态预训练模型的逐渐成熟,例如自然语言处理中的GPT-3与计算机视觉中的MoCoe、SimCLR,多模态预训练模型也逐渐步人研究人员的视野。多模态预训练,亦称跨模态预训练模型,研究联合使用多个模态(如视觉、文本、声音等)的无标注数据进行模型预训练,旨在提升各种多模态下游任务(如跨模态检索)的性能。自2019年起,基于单模态预训练模型的逐步成熟以及强大的学习能力,若干具有代表性的多模态预训练模型被提出。
目前较为通用的研究工作基本针对图像-文本(简称图文)的跨模态预训练模型。其他模态的研究(如图像-视频或视频-音频)大多基于图文跟模态预训练的算法。在图文跨模态预训练模型中,儿个早期的模型架构都是基于Transformer的双向编码器表征模型(Bidirectional Encoder Representations from Transformers,BERT)的思路,将图像输人与文本输人连接在一起。一种是单流模型,视觉信息与语言信息在模型一开始就进行拼接融合,由于多层的Transformer的框架图和多层的塔结构相似,也称作单塔模型;另一种是双流模型(或双塔模型),视觉信息与语言信息先分别经过两个独立的特征提取器,然后再拼接在一起,使用Transformer等结构进行双模态共同特征学习。较早的(2019年)工作除单、双流输人的差别外,模型结构都比较相似,主要差别在于预训练任务与输人特征。近期的相关工作在结构和预训练任务上做了较大幅度的改动,探索不同预训练任务对预训练模型的影响,如UNITERT。

打开网易新闻 查看精彩图片

多模态预训练模型的能力
一般来说,预训练模型能力的评测不是针对预训练(自监督)任务上的表现,而是针对下游任务上的表现。具体来讲,预训练模型经过大量无标注数据的训练后,可以通过微调将模型适配到一个具体的下游任务,例如文字检索图像、图像生成文字、视频配字幕等。如果预训练模型在没有经过这个具体的下游任务训练的情况下仍然取得较好的结果,甚至超过某些针对这些下游任务专门设计的普通模型的结果,则认为该预训练模型具有一定的通用学习和理解能力。
面临的挑战
目前,多模态预训练模型面临的研究挑战主要集中在两个方面:(1)如何设计好的预训练任务,使预训练模型在广泛的下游任务上取得的效果都得到提升;(2)如何利用好互联网上大量无标注数据。此外,互联网上的数据与研究中的数据还存在分布不均匀的情况,例如,现有的大量多模态预训练模型往往会采用如下强假设:对于输人的数据,图像与文本之间存在较强的语义相关性,然而实际的互联网中并不经常存在这种数据。特别地,中文语境下的多模态预训练模型更是鲜有研究,既缺少预训练数据集,也缺少对适合的预训练任务和下游评测任务的关注,需要我国研究人员重视。