中科院信息工程研究所：让AI"看图说话"不再胡编乱造的新方法|中科院|信号|信息工程研究所|实验|新论文|算法|胡编

这项由中国科学院信息工程研究所与中国科学院大学网络空间安全学院联合开展、并有京东集团参与合作的研究，以预印本形式于2026年5月1日发布在arXiv平台，论文编号为arXiv:2605.00323。研究提出了一种名为OSCAR（Online Self-CAlibRation，在线自我校准）的全新框架，专门针对多模态大型语言模型在"看图说话"任务中频繁出现的"幻觉"问题给出了系统性解决方案。

你或许有过这样的体验：打开一款AI助手，上传一张照片，让它描述图片内容，结果它煞有介事地告诉你画面中有一把椅子、一盏台灯，或者某个根本不存在的物体。AI没有撒谎的动机，却讲出了假话。这就是人工智能领域所说的"幻觉"现象，而这项研究的目标，正是从根源上让AI学会"只说自己真正看到的东西"。

一、AI为什么会"睁眼说瞎话"

要理解这项研究解决的问题，先从一个生活场景出发。假设你雇了一位刚入行的年轻助手，让他描述一幅画。为了训练他，你给他看了一位经验丰富的鉴赏家写的描述——那位鉴赏家眼力极好，能辨识出画面角落里极细微的笔触和若隐若现的小物件。年轻助手努力学习，却发现很多鉴赏家提到的细节他根本看不清。但考核要来了，他必须写出同样丰富的描述，于是他开始"猜"：鉴赏家提到过画里常有窗帘，那我也写有窗帘；鉴赏家喜欢描述光影，那我也描述一番。结果他写出来的内容听起来头头是道，却与眼前这幅画没有多大关系。

这就是研究团队所揭示的"监督-感知错位"（Supervision-Perception Mismatch）问题。目前主流的AI视觉模型训练方式，通常借助GPT-4这类更强大的"老师"模型生成大量描述性文本，然后让能力相对较弱的"学生"模型去模仿学习。老师看得准、描述得细，学生却没有老师那双敏锐的眼睛。被逼着描述自己看不清的东西，学生最终学会的不是"看图说话"，而是"猜图说话"——依赖语言习惯和统计规律来填补感知的空白。

研究团队用实验直接验证了这一点。他们用当时表现出色的Qwen3-VL-8B模型（在某项幻觉评测中得分高达88.91%）生成的描述数据，分别用2500条、5000条、7500条和10000条数据去微调一个叫做LLaVA-1.5-7B的模型。按理说，越多优质数据应该带来越好的效果，然而结果恰恰相反：原始模型在POPE评测（一种专门检验AI是否"凭空捏造物体"的基准测试）上的F1得分是85.87%，用了2500条数据微调后降到85.33%，用了更多数据之后继续下滑至84.46%、84.33%、84.65%。在另一个名为AMBER的综合幻觉评测上，衡量"产生了多少幻觉"的CHAIR指标和衡量"认知捷径依赖程度"的Cog指标，也都随训练数据增加而持续恶化。换句话说，喂给学生越多"超出其能力范围"的数据，它就越会胡说八道。这一反常识的发现，成了整个研究的出发点。

二、发现一个意外的能力漏洞

既然外部强模型的监督会帮倒忙，那能不能让AI用自己的能力来监督自己呢？这里有一个绕不过去的悖论：一个本身就会产生幻觉的模型，能给自己提供可靠的训练信号吗？

研究团队在反复实验中发现了一个颇为微妙的现象。同一个AI模型，在"开放式描述"和"针对性判断"这两种不同任务上，表现出了明显的能力差异。

以LLaVA-1.5模型为例。当你让它"请详细描述这张图片"时，它会洋洋洒洒地写下一段话，其中可能包含"墙上有一个时钟"这样的内容——但图片里根本没有时钟。然而，当你换一种方式问它"图片里有时钟吗？"时，它却能准确地回答"没有，图片里没有时钟"。

这个现象揭示了AI内部的一种矛盾：在自由发挥模式下，模型容易被语言习惯带着走，大脑里"描述室内场景时通常会提到时钟"这样的统计偏见悄悄混入了输出；但在"是/否"这种有明确约束的验证模式下，模型反而能更专注地把注意力放在图像本身，从而给出更准确的判断。研究团队把这种差异称为"生成-判别鸿沟"（Generative-Discriminative Gap）。

为了量化这个鸿沟，他们做了一个精巧的实验。首先让LLaVA-1.5-7B对500张COCO数据集中的图片进行自由描述，然后记录下所有被错误捏造出来的物体（用CHAIR指标衡量，初始CHAIRS得分是49.0%，CHAIRI得分是14.3%）。接着，对每一个被捏造的物体，比如"时钟"，都向同一个模型提问："图片里有时钟吗？"如果模型回答"没有"，就把这个幻觉物体从描述中删去，然后重新计算CHAIR指标。结果令人印象深刻：仅仅通过这种简单的自我验证，CHAIRS从49.0%降到了36.0%，CHAIRI从14.3%降到了9.3%。

这说明，AI模型并非真的"看不见"——它的感知能力其实存在，只是在自由生成模式下被语言惯性压制了。而这个被压制的感知能力，恰恰可以被"征用"来为模型提供自我监督信号。

三、像下棋一样深谋远虑地"造句"

发现了可以利用自身判别能力来获取监督信号，下一个问题是：如何用这个能力来生成高质量的训练数据？

常规做法是让模型生成一批描述，然后从中选出好的和坏的，组成"偏好对"（preference pair），再用这些对比数据来强化模型倾向于生成好描述的行为。但问题在于，如果只是贪心地在每一步都选择"当下看起来最安全"的词语，往往会错过隐藏的风险：某一句话现在看来无害，却可能把后续的生成"带偏"，引发连锁的幻觉反应，就像棋手下了一步看似稳妥的棋，却没料到三步后会落入对手的陷阱。

研究团队引入了蒙特卡洛树搜索（Monte Carlo Tree Search，MCTS）来解决这个问题。MCTS原本是一种让计算机在围棋、象棋等复杂博弈中进行深度思考的技术，AlphaGo击败人类围棋冠军的背后，正是依赖了这一机制。将它用于语言生成，相当于给AI配备了一种"沙盘推演"能力：在真正下笔之前，先在脑子里模拟多种可能的写法，预测每种写法最终会导向什么样的结果，然后选择最有可能产出既忠实又流畅描述的那条路径。

在OSCAR框架中，MCTS的搜索过程以句子为单位展开——每一步不是选一个词，而是选择完整的一句话。搜索树的每个节点代表已经写出的部分描述，每个"动作"代表新生成的一句话。整个搜索过程分四个阶段循环进行：首先是"选择"，从根节点（空描述）出发，根据已有信息选择最值得继续探索的分支；然后是"扩展"，在当前节点处生成若干候选句子，并过滤掉与其他候选句过于相似的版本以保证多样性；接着是"评估"，对新生成的句子进行打分；最后是"反向传播"，将评分结果从叶节点一路传回根节点，更新整棵树上各分支的估值。

值得一提的是，为了防止候选句子"扎堆"，系统还会计算句子之间的语义相似度，自动剔除太相近的选项。同时，选择分支时引入了一种"探索-利用平衡"机制，既不会一味选择当前分值最高的路径而忽视其他可能性，也不会漫无目的地随机探索，而是在二者之间保持动态平衡。

四、双管齐下的评分机制

MCTS的效果好不好，关键取决于如何给每一句候选内容打分。如果打分标准有偏差，整个搜索就会走偏。研究团队设计了一套被称为"双粒度奖励机制"（Dual-Granularity Reward Mechanism）的评分体系，从两个不同角度来评估生成内容的质量。

第一个角度是"过程奖励"（Process Reward），针对每一句刚刚生成的句子进行即时判断。做法很直接：把这句话交给模型自己，同时附上图片，问它"这句话是否提到了图片中不存在的物体？"答案选项是"A是"或"B否"，取模型回答"否"的概率作为这句话的过程得分。概率越高，说明模型自己认为这句话越忠实于图像，得分越高。

第二个角度是"门控结果奖励"（Gated Outcome Reward），针对完整的描述进行综合评价。它的运作方式颇为严格，分两步走。第一步是"过关检查"：从生成的完整描述中提取所有物体名词，将它们与图片的真实标注进行比对（通过一个预先建立的同义词词典将物体名称统一为标准类别名称），只要有任何一个物体不在真实标注中出现，这段描述就被判定为"含有幻觉"，结果奖励直接归零。第二步只对通过了"过关检查"的描述生效：此时再评估这段描述的整体质量，具体维度包括逻辑连贯性、语言流畅性和信息冗余度三个方面，让模型对描述打一个0到10分的综合分，除以10得到最终的结果奖励分。

将过程奖励和结果奖励加在一起，就构成了每个节点的最终价值。通过反向传播，这个综合价值会影响到树中每个早期节点的估值——某句话生成之后，如果它导向的完整描述往往又准确又流畅，那么这句话就会被认为是"优质的早期选择"；反之，如果它往往引发后续的幻觉，即便它本身看起来无害，也会被压低评分。这正是MCTS真正的价值所在：它让模型的"视野"从当前这句话延伸到了整篇描述的结局。

五、从搜索树到训练数据，再循环迭代

有了MCTS生成的搜索树，如何把它转化为训练数据？OSCAR采用了两种互补的方式来提取"偏好对"。

第一种叫"全局路径对比"：找到整棵搜索树中累积价值最高的那条完整路径（从根节点到叶节点的一系列选择），作为"优选回应"；同时找到累积价值最低的那条完整路径，作为"拒绝回应"。这一对数据告诉模型：面对同一张图片和同一个问题，这种整体风格的描述是好的，那种整体风格的描述是不好的。

第二种叫"兄弟节点对比"：沿着最优路径，在每一个深度层级，都把被选中的节点与同一层中表现最差的"兄弟节点"配成一对，但只有当两者的价值差距足够大时才配对，以确保形成有意义的对比。这种方式能从同一棵搜索树中提取出多个偏好对，极大地提升了数据的利用效率。

有了偏好对数据，就可以运用DPO（直接偏好优化，Direct Preference Optimization）算法来训练模型，让模型在相同情境下更倾向于生成类似"优选回应"而非"拒绝回应"的内容。DPO是目前AI对齐研究中广泛使用的一种高效训练方法，它不需要单独训练一个评分模型，而是直接在原有模型上优化"选哪个更好"这一偏好信号。

整个框架采用迭代式的在线学习策略：第一轮，用原始模型通过MCTS生成偏好数据，训练得到第一代改进模型；第二轮，用第一代改进模型重新通过MCTS生成新的偏好数据，训练得到第二代改进模型；第三轮如法炮制。每一轮中，由于模型本身已经变得更好，它通过MCTS生成的偏好数据质量也相应提升，从而形成一种良性循环——训练数据始终与模型当前的感知能力保持匹配，而不是像之前那样用超出能力范围的数据来强行"拔苗助长"。

六、实验数据说明了什么

研究团队以LLaVA-1.5-7B和LLaVA-1.5-13B作为基础模型，从LLaVA-150k数据集中采样图片和问题，每轮迭代生成约12万个偏好对，共迭代三轮，在多个标准评测集上与一系列对比方法进行了全面比较。

在专门衡量"生成了多少幻觉"的Object-HalBench评测集上，CHAIRS指标（衡量包含幻觉的句子比例）对于LLaVA-1.5-7B从原始的49.0%，经过三轮迭代依次降低至32.0%、28.6%、27.6%；CHAIRI指标（衡量幻觉物体占所有提及物体的比例）从14.3%降至9.7%、9.0%、8.2%。作为对比，此前表现最好的POVID方法在CHAIRS上只能达到33.6%，SIMA方法只能达到40.9%，OSCAR的最终结果均明显优于这些对比方法。

在AMBER综合幻觉评测集的生成任务部分，OSCAR在三轮迭代后将Hal指标（幻觉发生率）从原来的31.2%降至17.2%，将Cog指标（认知捷径依赖度）从3.6%降至1.6%，同样处于所有对比方法中的最佳水平。

在评测通用多模态理解能力的MM-VET评测集上，OSCAR将综合得分从32.5提升至34.6，说明减少幻觉的同时，描述的整体质量和信息丰富度并未下降，甚至有所提升。

在判别式任务（即让模型回答"图片里有没有某个物体"）上，OSCAR同样取得了提升：AMBER判别任务的F1分数从75.5%提升至80.2%，POPE评测的F1分数从85.87%提升至86.22%。

对于更大的LLaVA-1.5-13B模型，效果更为显著。CHAIRS从44.8%直降至5.4%，降幅高达87.9%；CHAIRI从11.8%降至2.6%，降幅约78%。这表明OSCAR的机制对更大规模的模型同样有效，甚至效果更为突出。

消融实验（即逐一去掉某个组件，观察性能变化的实验）进一步验证了各模块的贡献。基础模型（不加任何模块）的CHAIRS是49.0%。只加过程奖励时降至46.7%；只加门控结果奖励加MCTS时降至44.0%；过程奖励加MCTS（但不加结果奖励）时降至45.6%；三者都加上之后降至32.0%。这说明三个组件缺一不可，共同协作才能发挥最大效果，而MCTS本身对减少幻觉的贡献最为直接。

此外，在"在线学习与离线学习"的对比实验中，研究团队用同等数量（1万条）的不同来源数据进行监督微调，分三组对比：用Qwen3-VL生成的数据微调后，CHAIR指标从7.6恶化到9.2，Hal指标从31.2飙升至62.7，印证了监督-感知错位的危害；用LLaVA自身生成的数据微调后，指标基本持平，没有明显改善；而用OSCAR构建的偏好对中的优选样本进行微调后，CHAIR降至4.5，Hal降至15.4，Cog降至1.4，效果远超其他两种数据来源。

在定性分析中，面对同一张图片（一个男人坐在餐桌旁使用手机），LLaVA-1.5的描述中包含了"两张沙发"、"一本书"、"一个水瓶"、"一个书包"等根本不存在于图中的物体，而OSCAR生成的描述中虽然仍有少量不准确之处，但整体的幻觉率明显更低，描述也更为简洁连贯，减少了重复和冗余。

说到底，这项研究揭示了一个长期被忽视却至关重要的道理：用超出学生能力的标准来要求学生，不仅不会让他进步，反而会逼着他走上作弊和蒙混的歪路。AI的训练也是如此。解决幻觉问题的关键，不是找来更厉害的老师逼着AI学，而是让AI学会用自己已有的能力来约束自己，把真正"看"到的东西和语言习惯"编"出来的东西区分开来。MCTS赋予了模型"走一步看三步"的能力，双粒度奖励让模型在忠实性和流畅性之间找到平衡，迭代的在线学习则让整个系统随着模型能力的提升而不断进化。

这对普通用户意味着，未来AI助手在描述图片、分析医学影像或辅助自动驾驶时，产生"无中生有"错误的概率有望持续降低。当然，LLaVA-1.5并非当下最强的模型，OSCAR框架能否无缝迁移到更大规模、更复杂的模型上，以及在更多样化的场景下是否依然有效，仍是值得后续探索的问题。有兴趣深入了解技术细节的读者，可以通过论文编号arXiv:2605.00323查阅完整原文。

Q&A

Q1：AI"幻觉"是什么意思，为什么AI会描述图片中不存在的物体？

A：AI"幻觉"指的是大型语言模型或视觉语言模型生成了与实际输入内容不符的内容。在看图说话任务中，AI之所以会描述不存在的物体，主要是因为它在训练过程中大量学习了语言规律，比如"描述室内场景时经常出现沙发、台灯、书架"，当它进行自由生成时，这种统计习惯会悄悄混入输出，使得它"说出"了实际没有看到的东西。

Q2：OSCAR框架和之前的AI幻觉解决方案有什么根本区别？

A：核心区别在于"谁来提供训练信号"以及"数据如何生成"。之前的方法大多依赖更强大的模型（如GPT-4）来生成训练数据，但这样做会产生"监督-感知错位"，即弱模型被迫学习超出自身感知能力的内容，反而加剧幻觉。OSCAR让模型用自身的判别能力来监督自己，并通过蒙特卡洛树搜索进行深度推演，避免了局部最优陷阱，同时迭代更新确保训练数据始终与模型能力匹配。

Q3：蒙特卡洛树搜索在OSCAR中具体是怎么帮助减少幻觉的？

A：蒙特卡洛树搜索让AI在生成每一句描述之前，先在脑子里"沙盘推演"多种可能的后续写法，预测哪种开头更可能导向一篇整体忠实、流畅的描述。这样就避免了一个常见问题：某句话当下看起来安全，但实际上会把后续生成"带偏"，引发连锁幻觉。通过模拟未来、反向传播评分，MCTS让早期的词句选择也能感知到"长远后果"。