DA-DPO 不依赖额外标注,通过难度感知训练提升模型可靠性。
作者丨郑佳美
编辑丨岑峰
多模态模型在感知、理解与生成等方面的能力持续提升,但其输出中仍普遍存在与客观事实不一致的内容,即多模态幻觉现象。
当模型面对信息缺失、语义含混或视觉细节复杂的场景时,往往会通过臆测进行补全,从而捏造并不存在的病灶、物体或情节。这类问题并非偶发失误,而是偏好优化训练过程中逐渐积累的结构性偏差所致:模型更容易从数量庞大、差异明显的简单样本中获得学习收益,却对真正困难、歧义性强的样本关注不足,结果是在复杂真实场景中的可靠性受到限制。
围绕这一问题,上海科技大学信息科学与技术学院何旭明教授带领团队在论文《DA-DPO: Cost-efficient Difficulty-aware Preference Optimization for Reducing MLLM Hallucinations》中开展了系统研究。这项工作指出,现有偏好优化方法的核心症结不在于数据规模的不足,而在于样本难度分布失衡。
为此,团队提出了DA-DPO 框架,通过预训练模型对样本难度进行估计,并在训练过程中动态调整样本权重,使模型的学习重点自适应地转向复杂且更易出错的样本,从而缓解简单样本主导训练所带来的偏置。
值得注意的是,DA-DPO 不依赖额外人工标注,也无需训练独立的奖励模型或引入复杂的强化学习流程,因而具有显著的成本效率。在多项多模态评测基准上,该方法不仅显著降低了幻觉发生频率,同时在很大程度上保持甚至提升了模型的整体理解与推理能力。
论文地址:https://arxiv.org/pdf/2601.00623v1
01
抑制幻觉,但不抑制能力
最终的实验结果表明,研究团队提出的DA-DPO 方法在降低多模态大语言模型幻觉现象方面实现了稳定而显著的改进,同时在保持甚至提升模型综合能力方面也展现出明显优势。
研究人员首先在多个幻觉评测基准上开展了充分实验,包括 AMBER、MMHalBench、Object HalBench 和 POPE 等,这些基准覆盖图像描述、开放式视觉问答以及目标级别幻觉识别等不同任务类型,所采用的评价指标涵盖幻觉率、覆盖率、F1 分数及一致性得分等多个维度。
在这些评测中,与原始模型和传统 DPO 方法相比,DA-DPO 在降低幻觉率和提升事实一致性两方面均表现出显著提升。例如,在针对物体幻觉的测试中,模型明显减少了对图像中并不存在物体或属性的臆造描述,尤其在复杂场景和存在遮挡的情况下,DA-DPO 对随意性、想象式回答的抑制效果更加突出。
同时,在综合能力评估方面,包括 LLaVA-Bench、SeedBench、GQA 和 MME 等基准测试显示,传统 DPO 方法虽然能够一定程度上抑制幻觉,但往往伴随总体推理与理解能力的下降,相比之下,DA-DPO 在减少幻觉的同时,能够基本保持甚至提升模型的通用多模态能力,尤其在多轮对话、复杂视觉推理以及多选视觉问答等任务上表现更为稳健。
这表明,DA-DPO 并非以保守输出或减少表达为代价来控制幻觉,而是通过改进偏好学习机制,使模型在忠实性与综合能力之间达成更合理的平衡。
此外,实验还通过训练过程中的奖励信号动态分析进一步揭示了上述结果背后的机制。研究团队将验证集样本按照难度划分为四个等级后发现,在普通 DPO 训练中,简单样本的奖励提升速度明显快于困难样本,并在训练后期形成较大差距。
而 DA-DPO 的训练曲线则显示困难样本的奖励提升更加显著,简单样本的增长趋缓,从而有效缩小不同难度样本之间的奖励差距。通过对最简单与最困难样本奖励差距进行积分所得到的 AUG 指标,研究人员定量证明 DA-DPO 在整个训练过程中维持了更小的难易差异,这表明训练权重确实由简单样本向困难样本转移,最终转化为对细粒度幻觉的显著抑制以及综合能力的稳定保持。
02
把权重交给难样本
实验设计围绕一个核心出发点展开:在多模态偏好数据中,大量样本属于简单偏好对,而传统 DPO 在训练过程中更容易拟合这类易于区分的样本,从而削弱了对困难样本的学习力度,导致模型在真实而复杂的应用场景中仍然容易产生幻觉。
为验证这一判断并提出相应改进方案,研究团队从模型选择、数据构建、难度估计方法、训练策略以及消融实验五个方面开展了系统而严密的实验布局。
在模型选择方面,研究人员采用了 LLaVA v1.5 7B、LLaVA v1.5 13B 以及 LLaVA-OneVision 7B 等多种具有代表性的多模态大语言模型,覆盖不同参数规模和感知能力,以避免方法仅对特定模型结构有效。
在数据层面,团队并未依赖单一偏好数据集,而是综合使用了三类来源不同的数据:BPO 自动构造数据(通过弱化图像与注入错误生成负样本)、VLFeedback 自动偏好数据(由多模型生成回答并经 GPT-4V 评分筛选)以及 LLaVA-RLHF 人工标注数据。跨数据源的实验设计旨在验证样本难度不平衡是偏好数据中的普遍现象,而非个别数据集的偶然结果。
在此基础上,实验提出了一种无需额外训练的难度估计机制。研究人员同时引入两类预训练视觉语言模型:以 CLIP 为代表的对比式模型,从图像与文本相关性的角度评估样本,以及以 LLaVA 为代表的生成式模型,从问题与回答语义一致性的角度衡量样本。
针对每一对偏好数据,分别计算被选回答与被拒回答的得分,并以分数差值作为难易程度的依据:差值较大表示样本容易区分,差值较小则表明样本更为困难。随后,研究团队通过高斯归一化与分布感知投票策略对两类模型的输出进行融合,使难度估计在稳定性与鲁棒性方面得到兼顾。
而在训练阶段,团队将难度评分引入 DPO 框架中的 β 参数,使该参数不再固定,而是随样本难度自适应变化,从而形成难度感知训练机制:困难样本被赋予更高的优化权重,而简单样本的过拟合趋势则受到抑制。
为验证方法的真实有效性而非偶然现象,研究人员开展了大规模消融实验。例如,他们分别考察仅使用对比式模型、仅使用生成式模型以及两者联合进行难度估计的效果,结果表明联合方式明显优于单一来源,同时还构建了直接删除简单样本的过滤策略进行对照,发现这一做法破坏数据多样性并导致结果波动,而 DA-DPO 的软加权方式则能够持续带来稳定提升。
此外,研究团队还通过难度分桶训练进一步表明,当训练数据集中以中等难度样本为主时,幻觉抑制效果最为显著,从而进一步支持了这样一个关键观点:相较于单纯扩大数据规模,样本难度结构的合理性对模型性能提升具有更为关键的作用。
03
从「数据更多」到「难度更准」
整体来看,这项研究具有重要的学术意义和实际应用价值。首先,从理论层面看,研究团队通过对训练动态、奖励变化轨迹以及样本难度分布的系统分析,揭示了一个此前在多模态偏好优化领域未被充分重视的问题:传统 DPO 虽然在形式上实现了偏好对的优化,但在训练过程中存在明显的难度偏置,模型更倾向于学习简单、差异明显的样本,而对语义复杂、区分细微、贴近真实应用情境的困难样本学习不足。
正是这种偏置,使得即便在大量偏好数据训练之后,幻觉问题仍然难以得到有效抑制。DA-DPO 的提出并非单纯的工程技巧,而是将样本难度作为显式因素引入偏好优化目标之中,从根本上重构了偏好学习问题的视角,强调提升模型对齐能力的关键不在于一味扩大数据规模,而在于合理设计样本难度结构与权重分配。
这一理念对后续研究具有明显启发意义,自适应采样、困难样本挖掘以及在线难度建模等方向都可在此基础上进一步发展。
其次,从方法和工程实现角度看,DA-DPO 具有成本低、效率高、可落地性强的特点。该方法不依赖新增人工标注,也无需额外训练完整的奖励模型,更不需要引入复杂的强化学习流程,而是利用现有预训练模型对样本难度进行评估,并在原有 DPO 框架中加入简洁有效的 β 动态调节机制,即可获得稳定的性能提升。这种低成本与高收益并存的特点,使其非常适合在工业级多模态系统中部署与推广。
最后,从应用层面来看,多模态模型的幻觉问题直接影响其在安全关键任务中的实用性与可靠性。例如,医疗影像描述中若凭空捏造病灶,自动驾驶系统若误判道路要素,或法律辅助系统若臆测事实细节,都可能带来严重后果。
DA-DPO 在不显著削弱模型能力的前提下有效降低幻觉发生频率,从而显著提升模型在此类高风险领域中的可信度与安全性。当然,研究团队也指出该方法的局限性:难度评估依赖于当前预训练模型的判断能力,当目标领域与预训练语料存在较大差异时,难度评估可能不够准确。因此,未来工作有必要探索领域自适应的难度估计方法以及自监督式难度建模机制。
总体而言,这项研究不仅提供了一条切实可行的技术路线,更提出了一个对多模态偏好学习方式产生重要影响的核心观点,这也是其最为关键的学术意义所在。
04
在多模态世界里寻找答案的人
本文的第一作者是Longtian Qiu。他是上海科技大学信息科学与技术学院 PLUS Group 的硕士研究生,师从何旭明教授,目前攻读人工智能方向的硕士学位。
本科阶段同样就读于上海科技大学计算机科学专业,Longtian Qiu 的主要研究兴趣涵盖少样本/低样本学习、视觉—语言预训练以及提示学习等领域,而这些方向也是当前多模态学习与视觉语言理解研究中的重要议题。
参考链接:https://faculty.sist.shanghaitech.edu.cn/plus/author/longtian-qiu/
这篇文章的通讯作者是何旭明。他是上海科技大学信息科学与技术学院的副教授、研究员和博士生导师,同时担任学院副院长和学位委员会主任。
他于 2008 年在加拿大多伦多大学获得计算机科学博士学位,随后在加州大学洛杉矶分校(UCLA)从事博士后研究。此后,他先后在澳大利亚国家信息通信技术研究院(NICTA)和澳大利亚国立大学担任研究员及高级研究员,积累了丰富的国际科研与合作经验。自 2016 年起加入上海科技大学,并于 2017 年起任副教授,长期在 PLUS Lab 领衔团队开展前沿研究工作。
何旭明教授的研究兴趣主要集中在计算机视觉、机器学习与科学智能等领域,尤其关注开放世界场景理解、多模态数据的理解与生成、少样本与非均衡数据学习、终身学习以及新类别发现等具有挑战性的科学问题。在这些方向上,他已发表一百余篇学术论文,涵盖 Nature Communications、IEEE TPAMI、Nano Letters、NeurIPS、ICLR、CVPR、ICCV 等国际顶级期刊与会议,在学术界产生了广泛影响。
其科研成果被广泛引用,并指导学生多次获得重要学术奖励,包括 IEEE CVPR Workshop 最佳论文奖、IEEE FG 最佳学生论文奖及 ICCV OOD-CV 竞赛冠军等。除此之外,何旭明教授还曾获上海市优秀教学成果一等奖,多次担任 ICCV、ECCV、CVPR、NeurIPS 等国际顶级会议的领域主席,并担任国际期刊 TMLR 副主编,现任上海市智能视觉与影像工程技术研究中心主任。
https://faculty.sist.shanghaitech.edu.cn/faculty/hexm/index.html
未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
热门跟贴