EMNLP 2022 | 语言偏见不是唯一的捷径：视觉问答的捷径学习数据集|vqa|模态|预训练|鲁棒|鲁棒性

论文链接： https://arxiv.org/abs/2210.04692 代码和数据集链接： https://github.com/PhoebusSi/VQA-VS 项目主页： https://phoebussi.github.io/VQA-VS-homepage/ CCF BDCI训练赛页面： https://wap.datafountain.cn/competitions/613

一、说在前面

近些年，VQA-CP数据集已经成为VQA社区标准的OOD模型鲁棒性评测基准。然而，在2020年，Damien Teney[6]收录在NeurIPS的论文曾指出当前的VQA OOD评测基准及相关的去偏方法（debiasing methods）中存在着三个令人不安的操作（troubling issues），以至于对VQA社区范围内有着严重的不良影响。他在Twitter中曾称 “As feared, there was community-wide adaptive overfitting.” (译：正如人们担心的那样，社区范围内存在自适应过度拟合。详见图1)。

图1 Damien Teney在Twitter上对我们工作的转发和讨论

值得一提的是，Damien Teney是VQA任务的先驱研究者，曾获得the 2017 VQA Challenge的第一名，并提出VQA最广泛使用的backbone模型UpDn [7]。在Damien Teney指出这些issues的前后几年间，不断有数十篇论文在VQA-CP上研究VQA的debiasing方法，并得以在顶级期刊或会议中发表。在VQA-CP上的SOTA不断被声明又不断被打败，一遍又一遍，却无人关注该评测基准是否健康。

对于这种现象，Damien Teney在给笔者的邮件中写道，"It’s depressing to see so much work that has been put into dataset-specific method that have almost no utility in the end."（译：看到如此多的工作被投入到数据集特定的方法中，但最终几乎没有任何实用性，这令人沮丧。详见图7）并在twitter中就此现象写道，“Let’s keep questioning common assumptions and practices! ‘Everybody does it’ is rarely a good reason.”（译：我们应持续质疑常见的假设和实践！”从来如此，便对么？“。详见图1）。

二、动机

视觉问答（Visual Question Answering, VQA [1]）是一个同时涉及视觉和语言的综合理解及推理的跨模态任务。尽管现有的模型在许多分布内（in-distribution，IID）VQA数据集(如VQA v2 [2])上已经取得了不错的表现，但是研究显示，这些模型严重依赖于训练集中的语言偏见，即直接根据训练集中问题文本和答案之间的虚假关联给出预测答案，而不对图片和问题文本进行综合理解。这种现象被称语言优先（language prior）问题，是捷径学习（Shortcut Learning [3]）的一个典型现象，已被后来的研究者广泛研究。

为了更好地评测VQA模型克服语言偏见（debiasing）的能力，VQA-CP v2 [4]重新组织了VQA v2数据集使得同一问题词下的答案分布在训练集和测试集中是完全相反的，即符合分布外（Out-of-distribution, OOD）设定。如此一来，在训练集中学到的虚假关联和捷径将在测试集中失效，在VQA v2上表现不错的模型在VQA-CP v2上的性能大幅度下降。如今，VQA-CP v2已经成为VQA社区中被广泛使用的OOD鲁棒性评测基准。然而，通过分析VQA-CP v2和现有的VQA去偏方法，我们发现该评测基准存在两方面的问题需要改进：

图2 (a)LMH在9个OOD测试集中相对于其backbone的精度提升；(b)模型可能学到的方案

1.VQA-CP v2仅引入了一种特定的分布变换（distribution shift）来构造OOD测试集，因此仅能评估VQA模型克服该分布变换对应的捷径的能力，依然无法评估真实的鲁棒VQA能力（intended solution）。如图2(a)所示，在VQA-CP v2上表现卓越的LMH [5]仅能在我们提出的VQA-VS少数OOD测试集上提高其backbone的性能，而在其他OOD测试集上性能却明显下降。

这说明VQA-CP v2无法识别模型是否依赖于其他捷径（如，视觉对象和答案之间的虚假关联），易被这类dataset-specific方法欺骗。因此，如图2(b)所示，一个模型只有在更多的不同类型OOD测试集上同时提升性能，才更有把握认定该模型学到了鲁棒的VQA能力。我们在文中2.1节从因果（Causal）角度详细解释了这个动机。

2.Damien Teney[6]收录在NeurIPS 2020的论文曾指出当前的OOD评测基准中存在着三个令人不安的操作（troubling issues），即

issue 1：在VQA-CP v2中，训练集和测试集在同一问题词下的答案分布是完全相反。这一特点容易被当前的debiasing方法利用。比如，当训练集中的高频答案是"no"时直接回答"yes"即可得到不错的精度。这种dataset-specifc方法在现实场景中几乎没有任何用处；
issue 2：由于VQA-CP v2验证集的缺失，几乎现有所有的debiasing方法都直接用测试集来选择模型checkpoint。这不符合机器学习的最佳实践；
issue 3：现有工作通常需要在VQA v2上单独重训一个模型来评测IID性能，然后和VQA-CP v2上训练和评测出的OOD表现进行对比。这种为每种分布场景单独地训练一个模型不符合现实场景，并且使得IID和OOD的性能对比不具有参考价值。

我们在论文中2.2节更细致地解释了这三种issues的原因和对VQA社区的不良影响。

三、考虑了不同捷径的VQA评测基准VQA-VS

为了解决上述的两点限制，我们考虑了不同的捷径(Varying Shortcuts)，构造并发布了一个新的VQA基准VQA-VS，并且进一步规范了OOD评测流程。具体地，我们选择了包含基于语言的、基于视觉的和基于多模态的九种捷径来尽可能地包含不同类型的虚假关联。

对于每一个被选择的捷径，我们提出了一个基于互信息（mutual information）的方法来选择捷径特定概念（shortcut-specific concepts）。然后，我们利用这些concepts将所有样本分组，并通过基于香农熵（Shannon entropy）的方法引入不同的distribution shifts，以构造面向九种捷径的OOD测试集。

VQA-VS中构造OOD测试集时引入的distribution shift可避免issue 1。同时，除了9个OOD测试集外，VQA-VS还提供了一个验证集和IID测试集以避免issue 2和issue 3。

3.1 合并和切分数据

图3 VQA-VS数据集的切分

图3展示了VQA-VS的数据划分。我们首先将VQA v2的训练集和验证集合并在一起，然后随机采样出其中的70%和5%的数据分别作为VQA-VS的训练集和验证集，剩下的25%数据作为IID测试集。随机采样的操作可以保证验证集和IID测试集遵循了和训练集相同的分布。

3.2 捷径的选择

通过考虑问题，图片和跨模态的重要元素，我们分别引导出基于语言的，基于视觉的和基于多模态的捷径，以尽可能多地覆盖捷径的类别。这些元素分别是问题词（Question Type，QT），关键词（Keyword，KW），关键词对（Keyword Pair，KWP），问题类型和问题词的组合（QT+KW），关键对象（Key Object，KO），关键对象对（Key Object Pair，KOP），问题词和关键对象的组合（KW+KO）以及问题词、关键词和关键对象的组合（QT+KW+KO）。这些因素很可能与答案形成虚假关联，并导致各种各样捷径。如：

关于基于语言模态的QT捷径，答案"black"在训练集中总能正确回答问题词为"what color"的问题；关于KW捷径，关键词"grass"和答案"green"总是高频共现；
关于基于视觉模态的KO捷径，图片中的"grass"区域和答案"green"也有着频繁的共现；
而关于基于跨模态的QT+KO捷径，当问题词为"what sport"和图像中的"rocket"共同出现时，答案"tennis"总是正确的。

关于每种捷径更多的例子和解释可以参考文中3.2节。

3.3 捷径特定概念的选择

图4 每个样本被标上9个捷径特定概念

为了模拟不同捷径样本的分布，我们基于互信息为每一个样本分别标注了九种捷径特定概念（shortcut-specific concepts）。捷径特定概念可以被视为对应捷径的一个实例，代表着可能与答案关联最显著的信息。比如，问题"what color is the banana?"中，"what color"是QT捷径的概念，"banana"是KW捷径的概念。图4展示了更多捷径特定概念的例子。在下文中，我们详细阐述了确定每个捷径特定概念的过程。

QT：直接使用原始VQA数据集中的问题词前缀作为QT特定概念。
KW：给定一个VQA样本()我们通过以下公式测量答案 a 和问题 q 中每一个词 w 的(问题词除外)相互依赖程度：

其中，，和分别表示包含，和它们的共现的样本的总数。 K 表示数据集的样本总数。更丰富的互信息意味着单词和答案之间的相关性更强。我们选择互信息值最高的单词作为此样本的KW概念。如图4所示，我们总能找到与问题答案最相关的关键词。

KWP：我们选择互信息最高的两个词作为KWP特定概念。
QT+KW：我们将QT和KW概念按顺序组合在一起，以获得给定样本的QT+KW特点概念。
KO/KOP/QT+KO：这些概念的确定方式和KW/KWP/QT+KW类似，不再赘述。
KW+KO/QT+KW+KO：通过组合一个样本相应的（QT、）KW和KO概念，可获得其(QT+)KW+KO特定概念。

3.4 OOD测试集的构建

Kervadec等人 [8]等人通过实验验证了稀有的(rare)VQA样本是OOD样本，它们更适合评估VQA模型的鲁棒性。遵循他们，对于每种捷径，我们首先根据捷径特定概念将所有样本分组，然后从最不平衡的组中选出尾部样本作为OOD样本，最后合并所有选出来的OOD样本构成该捷径对应的OOD测试集。具体来说，共分为以下三步：

对样本进行分组。如图3所示，我们首先将IID测试集复制9份，每一份对应一种捷径，然后我们将每份中所有的IID样本根据该捷径特定的概念分组。
测量分组不平衡程度。当一个分组答案分布的熵越低，该分组越不平衡。首先，以KW捷径中第n个分组为例，我们按照以下公式计算其熵：

其中，表示答案为的样本在该分组中所占的比例。表示答案类别的数量。由于熵高度依赖于答案类别的数量，我们将其归一化：

归一化后的熵表示该分组的答案分布和同维度的均匀分布()有多接近。我们将归一化熵小于0.9的分组视为不平衡组。

每一个不平衡的分组都呈长尾分布，我们将样本数少于所有答案类别平均样本数的1.2倍的答案类别视为稀有的，即这些答案类别下的所有样本为尾部样本。最后我们将所有不平衡分组中的尾部样本合并在一起得到该捷径对应的OOD测试集。最终，我们可以得到9个OOD测试集。

四、数据集分析4.1 数据统计

表1 VQA-VS（粗体）和九个捷径的数据统计

表1表示了VQA-VS的数据统计，以及每个捷径的分组和样本统计。不同捷径的组总数差异显著（65~183683）。

4.2 答案分布的可视化

图5 (左)：训练集和OOD测试集的答案分布的对比；(右)：不同分组下不同的OOD答案比例

图5（左）显示，在相同概念的训练集和OOD测试集中，答案的分布显著不同。图5（右）显示了OOD样本的选择过程，我们总是可以根据不同的分布以适当的比例动态地选择尾部样本。

4.3 捷径的相关性

图6 (a)训练集所有头部划分之间的Jaccard相似系数。该值越高，两种捷径越相关。(b)所有OOD测试集两两之间的重合率。坐标（KO，QT）的方块表示QT OOD测试集中KO和QT重复样本所占的比例

头部划分在训练集中有着较高的占比，并且在模型训练中占主导地位，是模型学习到捷径的主要原因。因此，我们使用训练集中两条捷径的头部划分的相关性来分析两条捷路的相关性。特别地，如图6（a）所示，QT和KO捷径之间的Jaccard Simliarity系数明显较高。一个可能的解释是，问题类型和关键对象类型的标注之间有很强的关联。比如，问题类型"who is"和关键对象类型"person"经常共现。

4.4 OOD测试集之间重叠

直观地说，如果两个OOD测试集共享太多的样本，则无需在两个OOT测试集上单独评估模型。为了排除这种可能性并验证九个OOD测试集的必要性，我们计算所有OOD测试集中重复样本的数量，并计算相应的重合率。从图6（b）中，我们发现大多数OOD测试集之间的符合率很低。虽然（KO，QT）的符合率高达0.79，但（QT，KO）的重合度要低得多，仅为0.49，这表明KO与QT相比具有不同的侧重点。

五、实验和分析

表2 VQA-VS和VQA-CP v2的对比5.1 VQA-VS和VQA-CP v2的对比

VQA-CP v2和VQA-VS中的QT OOD测试集是相似的，因为它们都是通过对问题词下的答案分布进行distribution shift构造出来的。如表2所示，我们发现模型在VQA-VS的QT OOD测试集上的性能与VQA-CP v2相比显著滞后，而在两个数据集上的IID性能相似。

这表明我们的OOD场景设置比VQA-CP v2更困难。特别地，LMH和SSL在VQA-CP v2上能明显提升其主干模型UpDn的性能，但它们在VQA-VS的OOD测试集上却不起作用。这是因为它们严重依赖于对VQA-CP v2构造特点的利用（issue 1），而不是真正提高了模型的泛化能力和鲁棒性。

5.2 VQA-VS上的模型表现

由于我们解决了issue 3，模型的IID和OOD性能在我们的数据集上是可比的，两者的性能差异可以作为评测模型鲁棒性的一个重要指标。

从表2中可以看出，所有模型在IID测试集上的精度均优于所有OOD测试集，且有较大的性能差异（6.46∼31.82)。这表明九种捷径都被模型从训练集中学到，说明语言优先不是唯一的捷径。此外，经典debiasing方法LMH及其变体均不能同时推广到所有OOD测试集。这说明基于集成的方法是脆弱的，依赖于对偏见特征的精心设计，是捷径特定的方案。

5.3 更好的跨模态表示有助于克服各种捷径

现有的debiasing方法会在克服语言偏见和正确回答问题之间进行权衡，即通过牺牲IID性能来提高OOD性能（表2和表3的右侧部分）。这是因为它们是为使用已知的OOD构造特点（issue 1）而精心设计的，这会损害跨模态表示。

最近的研究人员受到VQA-CP v2的鼓励，朝着这样的方向研究，这与真正的模型鲁棒性背道而驰。在VQA-VS上，正如预期的那样，跨模态预训练模型LXMERT以令人印象深刻的优势优于其他基础模型，因为它经过在大规模跨模态数据中的预训练，可以将文本和图像编码成更好的表示。

而在VQA-CP v2上却是相反的现象，即基于小模型UpDn的一系列debiaisng方法可以以绝对优势击败跨模态预训练模型。这是因为模型对issue 1的利用在VQA-CP v2上带来的收益要远大于更鲁棒的跨模态表示带来的收益。这一现象使得预训练模型在VQA-CP v2上毫无优势，也使得VQA-CP v2上的SOTA相较于被预训练模型霸榜的数据集更容易被刷新。然而，遗憾的是，VQA-CP v2并不能验证模型的真实的鲁棒能力。

表3 当前SOTA debiasing方法的表现5.4 阻止模型学习频繁的样本可能会损害模型泛化能力

在VQA-CP上的SOTA debiasing方法（如RuBi，LPF，LMH）倾向于阻止模型学习训练集中的频繁样本。如表3左侧所示，这些模型在我们的IID和OOD测试集（甚至在QT捷径上）均出现显著下降。

为了进一步分析，我们评估了两个具有不同Gamma的LPF模型，即LPF-1和LPF-5。Gamma是一个超参数，用于控制多大程度上阻止频繁样本的学习（请参阅它们在VQA-CP v2和VQA v2上的性能）。在VQAVS上，阻止程度更大的LPF-5的IID性能和OOD性能均严重落后于LPF-1。这说明，阻止模型学习频繁的样本的去偏思路只是fit于issue 1的数据集特定方案。

5.5 模型选择策略的影响

表4 采用三种模型checkpoint选择策略的结果。a/b/c分别表示使用OOD测试集/OOD验证集/IID验证集对checkpoint进行选择

为了探究issue 2对验证模型性能的影响，我们进行了详细的实验分析。从表4中，我们发现，当使用OOD测试集进行模型选择时，OOD性能总能达到最佳，这是自适应过拟合(adaptive overfitting)的一种微妙形式 [6]。同时，OOD验证集选择的模型几乎赶上了OOD测试集选择的模型，因为它也违反了OOD分布在评估之前应该保持未知的标准。

相比之下，IID验证集选择的模型表现相对较差。特别地，只有使用OOD测试集或OOD验证集进行模型选择，SSL才能在OOD测试集上超越其主干模型UpDn。这表明SSL并不鲁棒，并且证实了SSL对性能的提升来自于自适应过拟合。

六、总结

视觉问答（VQA）模型倾向于学习由数据集偏差形成的捷径解决方案，而不是预期解决方案。为了评估VQA模型在捷径学习之外的泛化能力，VQA-CP v2数据集在给定问题类型的训练集和测试集之间引入了答案分布变换(distribution shift)。这样，模型无法使用训练集中的捷径在测试集上表现良好。

然而，VQA-CP v2只考虑一种类型的捷径（从问题类型到答案），因此仍然不能保证模型依赖于预期方案，而不是特定于此捷径的解决方案。为了克服这一限制，我们提出了一个新的数据集，通过在多个OOD测试集中构造不同的distribution shift来考虑不同类型的捷径。

此外，我们克服了在使用VQA-CP v2时的三个令人不安的操作（例如，直接使用OOD测试集选择模型）并进一步标准化OOD评估流程。我们的评测基准为VQA中的捷径学习提供了更加严格和全面的测试平台。我们对最近的方法进行了基准测试，发现专门为特定捷径设计的方法无法同时推广到我们不同的OOD测试集。我们还系统地研究了各种捷径，并提供了一些有价值的发现（详见论文），这可能会促进VQA中捷径学习的探索。

七、同行评价

图7 Damien Teney的来信

该论文放在arxiv后一周左右，笔者收到了Damien Teney的来信，如图7所示，Damien Teney肯定了我们的贡献，并认为我们很好地解决了他在[6]中指出的这些问题。同时，如图1所示，他在Twitter上对我们的工作进行了转发，并对这个社区范围内的自适应过拟合现象(community-wide adaptive overfitting)为研究者们总结了几点建议。

八、相关赛事

受2022 CCF BDCI大赛的邀请，我们将VQA-VS作为一道训练赛题发布了出去。

图8 训练赛界面

为了方便follow，该赛道提供了baseline代码框架和详细的数据集下载方式。欢迎大家在VQA-VS数据集上探究VQA模型真实的鲁棒能力。赛题的链接为https://wap.datafountain.cn/competitions/613。

参考文献

[1] Stanislaw Antol, Aishwarya Agrawal, Jiasen Lu, Margaret Mitchell, Dhruv Batra, C Lawrence Zitnick, and Devi Parikh. Vqa: Visual question answering. In ICCV 2015.

[2] Yash Goyal, Tejas Khot, Douglas Summers-Stay, Dhruv Batra, and Devi Parikh. 2017. Making the v in vqa matter: Elevating the role of image understanding in visual question answering. In CVPR 2017.

[3] Robert Geirhos, Jörn-Henrik Jacobsen, Claudio Michaelis, Richard Zemel, Wieland Brendel, Matthias Bethge, and Felix A Wichmann. Shortcut learning in deep neural networks. In Nature Machine Intelligence 2020.

[4] Aishwarya Agrawal, Dhruv Batra, Devi Parikh, and Aniruddha Kembhavi. Don’t just assume: Overcoming priors for visual question answering. In CVPR 2018.

[5] Christopher Clark, Mark Yatskar, and Luke Zettlemoyer. Don’t take the easy way out: Ensemble based methods for avoiding known dataset biases. In EMNLP 2019.

[6] Damien Teney, Kushal Kafle, Robik Shrestha, Ehsan Abbasnejad, Christopher Kanan, and Anton van den Hengel. On the value of out-of-distribution testing: An example of goodhart’s law. In NeurIPS 2020.

[7] Peter Anderson, Xiaodong He, Chris Buehler, Damien Teney, Mark Johnson, Stephen Gould, Lei Zhang. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering. In CVPR 2018.

[8] Corentin Kervadec, Grigory Antipov, Moez Baccouche, and Christian Wolf. Roses are red, violets are blue… but should vqa expect them to? In CVPR 2021.