ICLR 2026 Oral｜多模态知识图谱对齐难：破解噪声关联至为关键|多模态知识|大模型|鲁棒

在数据类型日益多元化的时代背景下，现实世界中的人、事、物皆可通过多种模态进行记录与呈现。在此趋势推动下，多模态知识图谱（MMKG）[1,2] 作为一种集成文本、图像、结构化关系等多模态数据的信息载体，能够高效、全面地为各类多模态下游应用提供数据支撑。作为构建知识图谱的核心技术，实体对齐致力于从不同来源的图谱中识别同一实体，从而建立跨图谱关联并促进图谱融合。

然而，现实生活中，大规模知识图谱的关联与融合非一蹴而就，往往面临着噪声关联和潜隐关联的双重挑战。如图一 (a) 和 (c) 所示，试想以下场景：

噪声关联：当你试图为「海王」杰森・莫玛关联图像，却因为极高的视觉相似度，将一张中国演员徐锦江的照片进行了上传；当你认为名字高度相似的 Mr. & Mrs. Smith 和 Will Smith and Mrs. Smith 是同一个实体时，其实是电影《史密斯夫妇》与美国明星「威尔・史密斯夫妇」。
潜隐关联：当模型想找到著名足球运动员 C 罗，却发现搜索到实体的图像竟然是「葡萄牙国旗」，于是认为并不是想查询的「人」。殊不知，这正是 C 罗的国籍。

近日，来自四川大学的研究团队揭示了上述现象在大规模知识图谱中广泛存在，并有效缓解了噪声关联和潜隐关联对实体对齐的负面影响，有望推动大规模知识图谱的关联与融合。目前，该论文被机器学习顶会 ICLR 2026 接收为了 Oral。

论文标题：Learning with Dual-level Noisy Correspondence for Multi-modal Entity Alignment
论文链接：https://openreview.net/forum?id=mytIKuRsSE
代码链接：https://github.com/XLearning-SCU/2026-ICLR-RULE
噪声关联学习仓库：https://github.com/XLearning-SCU/Awesome-Noisy-Correspondence

背景与挑战

多模态实体对齐（MMEA）[3,4] 旨在识别异构知识图谱中的同一实体，而图谱中的每个实体都与各种属性（如结构化信息、图像和文本描述）相关联。为建立异构知识图谱的关联，现有方法首先会根据实体内关联（实体 - 属性关联）来融合多模态属性，以获取实体表征，然后根据跨图谱关联（实体 - 实体关联，属性 - 属性关联），进行实体层面和属性层面的跨图谱对齐来消除差异。

然而，现有方法通常假设实体内和跨图谱的关联都是正确的，忽略了知识图谱中广泛存在的噪声关联问题。据统计，部分基准测试中有超过 50% 的实体受噪声关联问题影响。如图 1 (b) 所示，噪声关联不仅会破坏实体内的属性融合，还会误导跨图谱对齐过程，这两方面因素都将导致模型性能显著下降。

除了噪声关联现象外，现有的多模态实体对齐模型通常仅依赖浅层相似度来判断关联程度，忽略了模型推理时往往存在看似不同但本质相同的属性，如图 1 (c) 所示，这些潜隐关联往往会影响实体对齐的准确性。

图 1：噪声关联和潜隐关联示意图，以及二者相关的观察实验。

针对噪声关联和潜隐关联挑战，本文提出了 RULE，主要贡献如下：

揭示了多模态知识图谱中的噪声关联问题，从多属性融合和跨图谱对齐两个层面探索了噪声关联的负面影响。
在测试时引入关联推理模块，来确保更准确的实体识别，率先在实体对齐领域探索增强测试时鲁棒性。
为检验现有方法的鲁棒性建立了统一的基准测试，涵盖 5 个广泛应用的数据集。

方法

本文设计了一系列方法来缓解噪声关联和潜隐关联对多模态实体对齐模型的负面影响。具体而言，团队首先提出了统一的准则来量化实体内和跨图谱关联的可靠度，在训练时采用鲁棒的多属性融合和跨图谱对齐策略来缓解噪声关联的负面影响，在测试时使用了关联推理模块来挖掘潜隐关联，最终实现更准确的实体对齐。

图 2：RULE 的框架图

1）可靠度建模

2）鲁棒的跨图谱对齐和多属性融合

基于建模的关联可靠度，团队提出了鲁棒的跨图谱对齐和多属性融合，用于缓解噪声关联在这两方面的负面影响。

鲁棒的跨图谱对齐：如图 2 所示，RULE 采用基于 Dirichlet 分布的证据学习 [5] 来优化跨图谱关联，

鲁棒的多属性融合：在可靠度建模部分，团队量化了实体 / 属性对的可靠度，接下来需要估计实体内关联的可靠度。团队观察到，对于正确的实体 - 实体关联而言，错误的实体 - 属性关联一定会导致错误的属性 - 属性关联。因此，跨图谱属性 - 属性关联的可靠度能够用于识别错误的实体 - 属性关联。对于正确的实体 - 实体关联而言，团队采用如下的鲁棒多属性融合方式来获取实体表征，

3）测试时关联推理

为了挖掘看似不同但本质相同的属性，团队提出了测试时关联推理模块，利用多模态大模型（MLLM）的内蕴知识来矫正属性 - 属性关联，进而提升跨图谱实体对齐的准确率。具体而言，MLLM 推理得到的对齐结果如下：

实验结果

本文提出的 RULE 旨在克服多模态实体对齐中的噪声关联和潜隐关联挑战。为了更好地研究 RULE 的鲁棒性，团队参考噪声关联 [6,7]/ 标签 [8] 学习领域广泛采用的策略，通过人工注入噪声的方式构建了更加严苛的评估环境。

具体而言，团队在以下三个维度注入人工噪声：

实体 - 实体噪声关联：在已对齐的实体对中，随机选择一个实体替换为不同实体，破坏原始对齐关系；
实体 - 属性噪声关联：将当前实体的视觉和文本属性随机重新分配给不同实体，模拟属性标注错误；
属性 - 属性噪声关联：对视觉和文本属性注入噪声，模拟属性层面的噪声干扰。

表 1：不使用名字属性时的性能比较

表 2：所有属性时的性能比较

部分实验结果如下：

根据表 1-2，本文提出的 RULE 在不同噪声水平下均表现出卓越的鲁棒性，全面领先于现有 SOTA 方法，这说明 RULE 能够有效地缓解噪声和潜隐关联问题。即使在不额外注入噪声的情况下，RULE 依然实现了大幅性能提升，这验证了现实世界数据集中普遍存在噪声和潜隐关联问题。

图 3 跨图谱关联的可靠度分布

图 4 实体内关联的可靠度可视化

图 5 测试时关联推理模块的可视化

根据图 3-4，提出的可靠度量化策略不仅能够有效区分跨图谱的正确关联和噪声关联，而且能够识别出不可靠的属性，从而促进鲁棒跨图谱对齐和多属性融合。此外，根据图 5，测试时关联推理模块能够有效挖掘出图像属性之间的潜在关联，从而提升实体对齐的准确率。

总结与展望

本文提出的 RULE 探索了多模态实体对齐任务中的噪声关联和潜隐关联问题，从多属性融合、跨图谱对齐和测试时推理三个层面揭示了两者的负面影响，并进一步构建了评估方法鲁棒性的基准测试，为后续研究提供了实验观察和评估体系。

值得注意的是，本工作是将噪声关联学习范式引入多模态实体对齐任务上的一次成功尝试，拓展了噪声关联定义的外延，即实体内和跨图谱两个层面的噪声关联。

此外，本工作揭示了现有检索 / 对齐方法的固有缺陷，即依赖特征相似性进行匹配，未能深入挖掘实体间的潜在关系，特别是潜隐关联几乎存在于所有的多模态任务中，而团队提出的关联推理机制有望为相关研究带来启发。

参考文献

[1] Ye Liu, Hui Li, Alberto Garcia-Duran, Mathias Niepert, Daniel Onoro-Rubio, and David S Rosenblum. Mmkg: Multi-modal knowledge graphs. In ESWC, 2019.

[2] Shichao Pei, Lu Yu, Guoxian Yu, and Xiangliang Zhang. Rea: Robust cross-lingual entity alignment between knowledge graphs. In KDD, 2020.

[3] Liyi Chen, Ying Sun, Shengzhe Zhang, Yuyang Ye, Wei Wu, and Hui Xiong. Tackling uncertain correspondences for multi-modal entity alignment. NeurIS, 2024.

[4] Zhuo Chen, Jiaoyan Chen, Wen Zhang, Lingbing Guo, Yin Fang, Yufeng Huang, Yichi Zhang, Yuxia Geng, Jeff Z Pan, Wenting Song, et al. Meaformer: Multi-modal entity alignment transformer for meta modality hybrid. In ACM Multimedia, 2023a.

[5] Murat Sensoy, Lance Kaplan, and Melih Kandemir. Evidential deep learning to quantify classification uncertainty. In NeurIPS, 2018.

[6] Mouxing Yang, Zhenyu Huang, Peng Hu, Taihao Li, Jiancheng Lv, and Xi Peng. Learning with twin noisy labels for visible-infrared person re-identification. In CVPR, 2022.

[7] Zhenyu Huang, Mouxing Yang, Xinyan Xiao, Peng Hu, and Xi Peng. Noise-robust vision-language pre-training with positive-negative learning. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2024b.

[8] Nagarajan Natarajan, Inderjit S Dhillon, Pradeep K Ravikumar, and Ambuj Tewari. Learning with noisy labels. In NeurIPS, 2013.