清华&OPPO联合打造"智能侦探"：AI学会主动追查证据准确率飙升27%|OPPO|oppo|top|侦探|推理|维基|调用

这项由清华大学深圳国际研究生院与OPPO AI中心联合主导，并联合南洋理工大学共同完成的研究，于2026年6月26日以预印本形式发布在arXiv平台，编号为arXiv:2606.27974v1。

你有没有遇到过这样的场景：拍了一张公园的照片，想知道这个公园在哪个城市，但手机AI助手要么给你一个错误的答案，要么直接坦言"我不知道"。这个看似简单的问题，背后藏着人工智能领域一个相当棘手的难题——如何让机器在看图的同时，还能主动去查找它不知道的知识？

这支来自顶尖高校与产业界的研究团队，给出了一个颇为有趣的解决方案。他们把AI设计成一个"主动侦探"：面对一张图片和一个问题，这个侦探不会坐在原地胡乱猜测，而是会主动出击，先查图像线索，再翻文字档案，直到找到足够的证据才下结论。这个系统被命名为ProMSA（Progressive Multimodal Search Agents，渐进式多模态搜索智能体），它在两个主流测试数据集上的表现，比此前最强的竞争对手高出了约7到9个百分点。

一、侦探为什么比旁观者更聪明

要理解这项研究的意义，得先弄清楚一件事：为什么看图回答问题这么难？

表面上看，现在的AI已经能识别猫狗、理解文字、甚至写诗作画，似乎无所不能。但当问题涉及到那些"冷僻知识"时，AI就像一位博学的学者突然被问到一个偏僻小镇的地名——即便真的去过，也未必能准确说出来。以"图片里这个湖泊在哪个国家"为例，世界上有成千上万个湖泊，大多数湖泊的照片在AI的训练数据里出现的次数极少，AI很难凭借记忆给出正确答案。

现有的应对方案，主要走的是"先查后答"的路子，可以把它理解为一种图书馆查阅流程。系统先把图片拿去检索数据库，找到排名前几位的相关维基百科页面，然后把这些页面的内容塞给AI，让AI根据这些材料回答问题。这个方法确实有效，但它有三个根本性的短板。

第一个短板是检索策略完全固化，不会根据情况调整。就像一个侦探无论面对什么案件，都只会做同一件事——去翻同一个档案柜，而不会根据案情线索决定该去哪里查、查什么。有些问题其实不需要检索就能回答，有些需要先识别图中的实体再进行文字检索，有些则需要多轮追踪。一成不变的流程根本无法覆盖这些差异。

第二个短板是没有纠错机制。一旦第一次检索到了错误的页面，系统就只能硬着头皮根据错误信息回答，完全无法回头重查。这就像侦探翻到了一份伪造的证据，却没有任何能力识破和纠正，最终做出了错误的判断。

第三个短板是处理不了需要多步推理的问题。有些问题需要先找到实体，再从找到的信息里继续追查另一个知识点。比如"图片里这位运动员效力的球队，其主场球场的容量是多少"，这至少需要两步：先识别运动员和球队，再查球场容量。一次性检索根本无法胜任这类任务。

正是针对这三个问题，研究团队设计了ProMSA这个"会主动侦查的系统"。

二、侦探的办案流程：渐进式搜索

ProMSA的核心思路可以用一个简洁的侦探破案比喻来贯穿理解。每一次接到一个"案件"（图片+问题），侦探不会立刻给出结论，而是根据手头的线索决定下一步行动，直到证据充分为止。

具体来说，这个侦探在每一步面前有三个选择：发起图像搜索、发起文字搜索，或者宣布"证据已经足够，我有答案了"。这三个选择合称为"行动空间"。

图像搜索的工作方式是这样的：侦探把当前图片拿去和维基百科里的数百万张图片比较，找出最相似的几张，然后获取这些图片所对应的维基百科页面内容。这个步骤主要用于识别图中的实体——比如这是什么建筑、这是哪个人、这是哪个地标。

文字搜索则是另一条线索追查路径：侦探根据已知信息生成一个文字查询，去维基百科的文字内容里寻找具体的属性信息。比如已经知道图片里是"马里乌奇竞技场"，接下来要回答"里面有什么类型的座位"，就需要专门去搜索这个球场的文字介绍。

特别聪明的一个设计是"去重机制"。侦探每次查过的档案都会被记录下来，下次检索时会自动排除已经看过的内容，避免重复在同一份错误证据上打转。这意味着当第一次图像搜索返回了错误实体时，侦探可以再次发起图像搜索，并且这次会绕开上次的错误结果，向更深处探寻正确答案。

整个过程还有一个"预算"约束——图像搜索和文字搜索各自最多能调用3次，防止侦探无休止地查下去耗尽计算资源。一旦超出预算，必须给出当前最佳判断。

为了防止每次检索返回的大量文字让侦探"信息过载"，系统还专门设置了一个"摘要员"，由另一个AI负责把检索到的维基百科页面压缩成与问题最相关的简短摘要，再交给侦探阅读。这样一来，侦探每次获得的是精炼的关键信息，而不是成千上万字的原始文本。

三、侦探是怎么被训练出来的

有了这套办案流程，下一个问题是：怎么让侦探学会用好这套工具？

研究团队采用了一个分两步走的训练方案，可以把它理解为"先上基础培训课，再通过实战磨练"。

基础培训课被称为"冷启动监督学习"。在这个阶段，团队先从训练数据中抽取3000个问题，让一个初始版本的AI模型去反复尝试，每次保留那些格式正确、工具调用成功、且最终答案正确的尝试轨迹，丢掉那些失败的。这个过程就像筛选高质量的范例卷子——只收录"做对了而且步骤清晰"的答案，然后让AI从这些范例中学习基本的办案格式和流程。这一步不要求AI学会高深的策略，只要求它能正确地填写"工具调用表格"、按格式汇报推理过程。

实战磨练阶段则采用强化学习，是更高级的训练方式。研究团队从训练数据中取出15000个问题，让训练好基础格式的侦探去实际办案，根据最终结果给予奖励或惩罚。奖励机制由三部分构成：答案正确给高分，格式规范额外加分，而调用工具的次数越多则会被适当扣分（鼓励侦探用最少的调查步骤解决问题）。通过大量实战，侦探逐渐学会了什么情况下应该继续搜索、什么时候已经可以下结论，以及该用图像搜索还是文字搜索。

四、训练算法的一个关键改进

在强化学习的技术细节层面，研究团队发现了现有训练方法的一个隐藏问题，并提出了针对性改进。

现有的主流强化学习方法在更新AI参数时，会把本次尝试产生的总体偏差除以"这次尝试产生了多少个词"来做归一化处理。这个设计背后的逻辑是：产生的词越多，每个词对结果的平均贡献就越小，所以需要相应调整更新幅度，避免因为某次尝试生成了超长文本而导致训练信号过大。

然而在侦探这个场景里，决定成败的关键不只是"写了多少字"，更重要的是"调用了几次工具、做了几轮调查"。一个侦探可能只写了很少的文字，但调用了3次工具；另一个侦探写了大量分析文字，但只调用了1次工具。这两个侦探的"决策复杂度"截然不同，但如果只按文字量归一化，训练信号就会产生偏差。

研究团队提出的TN-GSPO（工具归一化的群体序列策略优化）方法，把归一化的分母从"生成词数"扩展为"生成词数 × (1 + 工具调用深度的函数)"。这样一来，工具调用越多的轨迹，其更新幅度会被相应调小，与实际的决策复杂度更匹配，训练过程也因此更加稳定。

从训练过程的动态曲线来看，使用原始GRPO方法的侦探在训练早期就迅速减少了工具调用次数，这意味着侦探学会了"尽量少查案"来规避扣分，但代价是收集的证据不足。而TN-GSPO方法训练出的侦探则保持了合理的工具调用频率，在整个训练过程中逐步找到了查案深度与效率的平衡点。

五、侦探上场后的成绩单

研究团队在两个主流知识型视觉问答数据集上测试了ProMSA，分别是Encyclopedic-VQA（简称E-VQA，涵盖约16.7万道涉及16700多个维基百科实体的问题）和InfoSeek（包含约130万道问题，专门测试对"未见过实体"的泛化能力）。

在E-VQA数据集上，仅凭自身知识作答的最新视觉语言大模型（Qwen3-VL-8B）准确率约为25%，相当于侦探什么工具都不用，单靠记忆作答。引入固定检索流程的最强竞争对手REAL达到了约45%。而ProMSA（Qwen3-VL-8B版本）在单跳问题上达到了52.2%，在全量测试集上更达到52.6%，领先幅度相当明显。

在InfoSeek数据集上，情况类似。该数据集特别测试"未见过的实体"和"未见过的问题"这两种泛化难度，ProMSA分别达到了53.6%和53.3%，综合得分53.4%，同样显著领先于各类竞争方法。

研究团队还额外在OK-VQA这个更广泛的视觉问答数据集上进行了测试，以验证侦探技能的迁移能力。结果显示，使用Qwen2.5-VL-7B的ProMSA达到了82.7%，使用Qwen3-VL-8B的版本更达到85.6%，均超过了此前专门针对OK-VQA设计的方法。这说明侦探学到的不只是针对特定任务的技巧，而是真正具有通用价值的知识搜索能力。

在推理速度方面，ProMSA的平均处理时间为每个样本1.8秒（相当于最快方法EchoSight的1.5倍），而准确率比EchoSight高出约30个百分点。相比之下，Deepeyesv2的耗时是EchoSight的2倍，但准确率反而低于ProMSA约10个百分点。这意味着ProMSA在性能和速度之间取得了相当优秀的平衡。

六、拆开盖子看细节：每个设计的贡献有多大

研究团队做了一系列对照实验，来搞清楚侦探的每一件装备到底有多大用处。

先看训练阶段的贡献。从基础模型（仅有推理框架，未经训练）到冷启动SFT阶段，E-VQA的综合准确率从32.8%提升至38.6%；再加上强化学习阶段，准确率进一步跃升至52.6%。冷启动解决的是"会不会用工具"的问题，强化学习解决的是"用得好不好"的问题，两者缺一不可。

再看工具配置的贡献。只给文字搜索工具时，E-VQA准确率为27.6%，InfoSeek为36.8%——文字搜索在需要先识别实体的场景下表现很差，因为侦探连"被调查对象是谁"都还没确认，就去查属性信息，自然事倍功半。只给图像搜索工具时，E-VQA准确率为34.7%，但InfoSeek只有21.4%——图像搜索擅长识别实体，但在需要细粒度文字知识时无能为力。两种工具同时配备，E-VQA和InfoSeek分别达到52.6%和53.4%，效果远超任何单一工具，证明了多模态自适应检索的必要性。

在工具调用预算方面，每种工具可调用2次时，E-VQA为48.2%；调用3次时最优，达到52.6%；调用4次时略有下滑至52.4%。这印证了"预算太少证据不足，预算太多引入噪声"的直觉。

在每次检索返回数量方面，返回Top-1时E-VQA为45.9%，返回Top-3时达到最优52.6%，返回Top-4时略降至52.1%，同样呈现出类似的倒U形曲线。

七、侦探是怎么决定"何时收手"的

研究团队还对侦探在多轮调查中的行为进行了细粒度分析，这部分结果相当耐人寻味。

在第一轮检索后，只有39.1%的检索结果包含了正确的维基百科页面——这说明侦探的第一反应其实经常是错的，约六成情况下需要进一步调查。在这一轮，有46.4%的情况是"检索错了但侦探选择继续查"，体现了侦探的自我纠错本能；但也有14.5%的情况是"检索错了但侦探却停下来给出答案"，这是明显的错判。

到第二轮检索后，检索准确率提升至48.8%，"检索正确并停下"的比例从32.4%上升至45.5%，"检索错误但继续查"的比例从46.4%骤降至7.4%。这说明强化学习有效地训练出了"一旦找到可靠证据就及时收手"的判断能力。

当然，第二轮也出现了一个值得关注的模式：有相当比例的情况是"检索仍然错误，但侦探停了下来"。研究团队分析，这一方面是工具调用成本惩罚机制在起作用（继续查的代价太高，侦探选择了妥协），另一方面也反映出对于真正"长尾"的冷僻实体，侦探有时确实无法判断手中的证据是否可靠。这是当前版本的一个局限，也是未来可以改进的方向。

说到底，ProMSA做的事情说起来并不复杂：把AI从一个被动的"知识库"变成一个主动的"调查员"。但实现这个转变需要解决的问题却相当精细——既要设计合理的调查工具，又要训练出恰当的使用策略，还要在效率和准确率之间找到平衡。研究团队用冷启动加强化学习的两阶段训练、用TN-GSPO稳定了学习过程、用双工具自适应切换覆盖了不同类型的知识缺口，这些设计共同造就了最终的性能提升。

对于普通用户而言，这项研究意味着未来的AI助手在面对"图中这是什么地方""这个人物在哪里出生"等涉及冷僻知识的问题时，将有更大概率给出正确答案，而不是自信地给出一个编造的答案。对于研究者而言，TN-GSPO提供了一种更合理的多工具智能体训练范式，可以推广到其他需要外部工具调用的AI任务上。

有兴趣深入了解技术细节的读者，可以通过编号arXiv:2606.27974在arXiv平台检索完整论文，代码也已在GitHub上开源，地址可通过论文中的链接获取。

Q&A

Q1：ProMSA和普通的RAG检索增强方法有什么本质区别？

A：普通RAG是一次性检索然后直接生成答案，检索策略固定，失败了无法纠正。ProMSA则像一个主动调查的侦探，可以根据每一步的检索结果决定是继续查还是停下来，还可以在第一次检索失败后自动排除错误结果再次尝试，形成一个闭环的搜索推理过程。

Q2：TN-GSPO与GRPO相比解决了什么具体问题？

A：GRPO在训练多工具智能体时，只按生成文字的数量来归一化训练信号，会导致AI倾向于"少用工具、少写字"来获得更稳定的优化信号，最终收集的证据不足。TN-GSPO额外把工具调用次数纳入归一化分母，让训练信号的强度与实际决策复杂度相匹配，从而引导AI学会在需要时合理使用多次工具调用。

Q3：ProMSA在什么类型的视觉问答问题上提升最明显？

A：ProMSA在涉及长尾实体（即训练数据中很少出现的偏僻实体）的知识型问题上提升最为显著，尤其是那些需要先识别图中实体再追查其属性的问题，以及需要跨多个维基百科页面进行多步推理的问题。对于AI本身参数记忆中已有答案的常见知识，提升幅度相对有限。