这项由清华大学深圳国际研究生院与OPPO AI中心联合主导,并联合南洋理工大学共同完成的研究,于2026年6月26日以预印本形式发布在arXiv平台,编号为arXiv:2606.27974v1。
你有没有遇到过这样的场景:拍了一张公园的照片,想知道这个公园在哪个城市,但手机AI助手要么给你一个错误的答案,要么直接坦言"我不知道"。这个看似简单的问题,背后藏着人工智能领域一个相当棘手的难题——如何让机器在看图的同时,还能主动去查找它不知道的知识?
这支来自顶尖高校与产业界的研究团队,给出了一个颇为有趣的解决方案。他们把AI设计成一个"主动侦探":面对一张图片和一个问题,这个侦探不会坐在原地胡乱猜测,而是会主动出击,先查图像线索,再翻文字档案,直到找到足够的证据才下结论。这个系统被命名为ProMSA(Progressive Multimodal Search Agents,渐进式多模态搜索智能体),它在两个主流测试数据集上的表现,比此前最强的竞争对手高出了约7到9个百分点。
一、侦探为什么比旁观者更聪明
要理解这项研究的意义,得先弄清楚一件事:为什么看图回答问题这么难?
表面上看,现在的AI已经能识别猫狗、理解文字、甚至写诗作画,似乎无所不能。但当问题涉及到那些"冷僻知识"时,AI就像一位博学的学者突然被问到一个偏僻小镇的地名——即便真的去过,也未必能准确说出来。以"图片里这个湖泊在哪个国家"为例,世界上有成千上万个湖泊,大多数湖泊的照片在AI的训练数据里出现的次数极少,AI很难凭借记忆给出正确答案。
现有的应对方案,主要走的是"先查后答"的路子,可以把它理解为一种图书馆查阅流程。系统先把图片拿去检索数据库,找到排名前几位的相关维基百科页面,然后把这些页面的内容塞给AI,让AI根据这些材料回答问题。这个方法确实有效,但它有三个根本性的短板。
第一个短板是检索策略完全固化,不会根据情况调整。就像一个侦探无论面对什么案件,都只会做同一件事——去翻同一个档案柜,而不会根据案情线索决定该去哪里查、查什么。有些问题其实不需要检索就能回答,有些需要先识别图中的实体再进行文字检索,有些则需要多轮追踪。一成不变的流程根本无法覆盖这些差异。
第二个短板是没有纠错机制。一旦第一次检索到了错误的页面,系统就只能硬着头皮根据错误信息回答,完全无法回头重查。这就像侦探翻到了一份伪造的证据,却没有任何能力识破和纠正,最终做出了错误的判断。
第三个短板是处理不了需要多步推理的问题。有些问题需要先找到实体,再从找到的信息里继续追查另一个知识点。比如"图片里这位运动员效力的球队,其主场球场的容量是多少",这至少需要两步:先识别运动员和球队,再查球场容量。一次性检索根本无法胜任这类任务。
正是针对这三个问题,研究团队设计了ProMSA这个"会主动侦查的系统"。
二、侦探的办案流程:渐进式搜索
ProMSA的核心思路可以用一个简洁的侦探破案比喻来贯穿理解。每一次接到一个"案件"(图片+问题),侦探不会立刻给出结论,而是根据手头的线索决定下一步行动,直到证据充分为止。
具体来说,这个侦探在每一步面前有三个选择:发起图像搜索、发起文字搜索,或者宣布"证据已经足够,我有答案了"。这三个选择合称为"行动空间"。
图像搜索的工作方式是这样的:侦探把当前图片拿去和维基百科里的数百万张图片比较,找出最相似的几张,然后获取这些图片所对应的维基百科页面内容。这个步骤主要用于识别图中的实体——比如这是什么建筑、这是哪个人、这是哪个地标。
文字搜索则是另一条线索追查路径:侦探根据已知信息生成一个文字查询,去维基百科的文字内容里寻找具体的属性信息。比如已经知道图片里是"马里乌奇竞技场",接下来要回答"里面有什么类型的座位",就需要专门去搜索这个球场的文字介绍。
特别聪明的一个设计是"去重机制"。侦探每次查过的档案都会被记录下来,下次检索时会自动排除已经看过的内容,避免重复在同一份错误证据上打转。这意味着当第一次图像搜索返回了错误实体时,侦探可以再次发起图像搜索,并且这次会绕开上次的错误结果,向更深处探寻正确答案。
整个过程还有一个"预算"约束——图像搜索和文字搜索各自最多能调用3次,防止侦探无休止地查下去耗尽计算资源。一旦超出预算,必须给出当前最佳判断。
为了防止每次检索返回的大量文字让侦探"信息过载",系统还专门设置了一个"摘要员",由另一个AI负责把检索到的维基百科页面压缩成与问题最相关的简短摘要,再交给侦探阅读。这样一来,侦探每次获得的是精炼的关键信息,而不是成千上万字的原始文本。
三、侦探是怎么被训练出来的
有了这套办案流程,下一个问题是:怎么让侦探学会用好这套工具?
研究团队采用了一个分两步走的训练方案,可以把它理解为"先上基础培训课,再通过实战磨练"。
基础培训课被称为"冷启动监督学习"。在这个阶段,团队先从训练数据中抽取3000个问题,让一个初始版本的AI模型去反复尝试,每次保留那些格式正确、工具调用成功、且最终答案正确的尝试轨迹,丢掉那些失败的。这个过程就像筛选高质量的范例卷子——只收录"做对了而且步骤清晰"的答案,然后让AI从这些范例中学习基本的办案格式和流程。这一步不要求AI学会高深的策略,只要求它能正确地填写"工具调用表格"、按格式汇报推理过程。
实战磨练阶段则采用强化学习,是更高级的训练方式。研究团队从训练数据中取出15000个问题,让训练好基础格式的侦探去实际办案,根据最终结果给予奖励或惩罚。奖励机制由三部分构成:答案正确给高分,格式规范额外加分,而调用工具的次数越多则会被适当扣分(鼓励侦探用最少的调查步骤解决问题)。通过大量实战,侦探逐渐学会了什么情况下应该继续搜索、什么时候已经可以下结论,以及该用图像搜索还是文字搜索。
四、训练算法的一个关键改进
在强化学习的技术细节层面,研究团队发现了现有训练方法的一个隐藏问题,并提出了针对性改进。
现有的主流强化学习方法在更新AI参数时,会把本次尝试产生的总体偏差除以"这次尝试产生了多少个词"来做归一化处理。这个设计背后的逻辑是:产生的词越多,每个词对结果的平均贡献就越小,所以需要相应调整更新幅度,避免因为某次尝试生成了超长文本而导致训练信号过大。
然而在侦探这个场景里,决定成败的关键不只是"写了多少字",更重要的是"调用了几次工具、做了几轮调查"。一个侦探可能只写了很少的文字,但调用了3次工具;另一个侦探写了大量分析文字,但只调用了1次工具。这两个侦探的"决策复杂度"截然不同,但如果只按文字量归一化,训练信号就会产生偏差。
研究团队提出的TN-GSPO(工具归一化的群体序列策略优化)方法,把归一化的分母从"生成词数"扩展为"生成词数 × (1 + 工具调用深度的函数)"。这样一来,工具调用越多的轨迹,其更新幅度会被相应调小,与实际的决策复杂度更匹配,训练过程也因此更加稳定。
从训练过程的动态曲线来看,使用原始GRPO方法的侦探在训练早期就迅速减少了工具调用次数,这意味着侦探学会了"尽量少查案"来规避扣分,但代价是收集的证据不足。而TN-GSPO方法训练出的侦探则保持了合理的工具调用频率,在整个训练过程中逐步找到了查案深度与效率的平衡点。
五、侦探上场后的成绩单
研究团队在两个主流知识型视觉问答数据集上测试了ProMSA,分别是Encyclopedic-VQA(简称E-VQA,涵盖约16.7万道涉及16700多个维基百科实体的问题)和InfoSeek(包含约130万道问题,专门测试对"未见过实体"的泛化能力)。
在E-VQA数据集上,仅凭自身知识作答的最新视觉语言大模型(Qwen3-VL-8B)准确率约为25%,相当于侦探什么工具都不用,单靠记忆作答。引入固定检索流程的最强竞争对手REAL达到了约45%。而ProMSA(Qwen3-VL-8B版本)在单跳问题上达到了52.2%,在全量测试集上更达到52.6%,领先幅度相当明显。
在InfoSeek数据集上,情况类似。该数据集特别测试"未见过的实体"和"未见过的问题"这两种泛化难度,ProMSA分别达到了53.6%和53.3%,综合得分53.4%,同样显著领先于各类竞争方法。
研究团队还额外在OK-VQA这个更广泛的视觉问答数据集上进行了测试,以验证侦探技能的迁移能力。结果显示,使用Qwen2.5-VL-7B的ProMSA达到了82.7%,使用Qwen3-VL-8B的版本更达到85.6%,均超过了此前专门针对OK-VQA设计的方法。这说明侦探学到的不只是针对特定任务的技巧,而是真正具有通用价值的知识搜索能力。
在推理速度方面,ProMSA的平均处理时间为每个样本1.8秒(相当于最快方法EchoSight的1.5倍),而准确率比EchoSight高出约30个百分点。相比之下,Deepeyesv2的耗时是EchoSight的2倍,但准确率反而低于ProMSA约10个百分点。这意味着ProMSA在性能和速度之间取得了相当优秀的平衡。
六、拆开盖子看细节:每个设计的贡献有多大
研究团队做了一系列对照实验,来搞清楚侦探的每一件装备到底有多大用处。
先看训练阶段的贡献。从基础模型(仅有推理框架,未经训练)到冷启动SFT阶段,E-VQA的综合准确率从32.8%提升至38.6%;再加上强化学习阶段,准确率进一步跃升至52.6%。冷启动解决的是"会不会用工具"的问题,强化学习解决的是"用得好不好"的问题,两者缺一不可。
再看工具配置的贡献。只给文字搜索工具时,E-VQA准确率为27.6%,InfoSeek为36.8%——文字搜索在需要先识别实体的场景下表现很差,因为侦探连"被调查对象是谁"都还没确认,就去查属性信息,自然事倍功半。只给图像搜索工具时,E-VQA准确率为34.7%,但InfoSeek只有21.4%——图像搜索擅长识别实体,但在需要细粒度文字知识时无能为力。两种工具同时配备,E-VQA和InfoSeek分别达到52.6%和53.4%,效果远超任何单一工具,证明了多模态自适应检索的必要性。
在工具调用预算方面,每种工具可调用2次时,E-VQA为48.2%;调用3次时最优,达到52.6%;调用4次时略有下滑至52.4%。这印证了"预算太少证据不足,预算太多引入噪声"的直觉。
在每次检索返回数量方面,返回Top-1时E-VQA为45.9%,返回Top-3时达到最优52.6%,返回Top-4时略降至52.1%,同样呈现出类似的倒U形曲线。
七、侦探是怎么决定"何时收手"的
研究团队还对侦探在多轮调查中的行为进行了细粒度分析,这部分结果相当耐人寻味。
在第一轮检索后,只有39.1%的检索结果包含了正确的维基百科页面——这说明侦探的第一反应其实经常是错的,约六成情况下需要进一步调查。在这一轮,有46.4%的情况是"检索错了但侦探选择继续查",体现了侦探的自我纠错本能;但也有14.5%的情况是"检索错了但侦探却停下来给出答案",这是明显的错判。
到第二轮检索后,检索准确率提升至48.8%,"检索正确并停下"的比例从32.4%上升至45.5%,"检索错误但继续查"的比例从46.4%骤降至7.4%。这说明强化学习有效地训练出了"一旦找到可靠证据就及时收手"的判断能力。
当然,第二轮也出现了一个值得关注的模式:有相当比例的情况是"检索仍然错误,但侦探停了下来"。研究团队分析,这一方面是工具调用成本惩罚机制在起作用(继续查的代价太高,侦探选择了妥协),另一方面也反映出对于真正"长尾"的冷僻实体,侦探有时确实无法判断手中的证据是否可靠。这是当前版本的一个局限,也是未来可以改进的方向。
说到底,ProMSA做的事情说起来并不复杂:把AI从一个被动的"知识库"变成一个主动的"调查员"。但实现这个转变需要解决的问题却相当精细——既要设计合理的调查工具,又要训练出恰当的使用策略,还要在效率和准确率之间找到平衡。研究团队用冷启动加强化学习的两阶段训练、用TN-GSPO稳定了学习过程、用双工具自适应切换覆盖了不同类型的知识缺口,这些设计共同造就了最终的性能提升。
对于普通用户而言,这项研究意味着未来的AI助手在面对"图中这是什么地方""这个人物在哪里出生"等涉及冷僻知识的问题时,将有更大概率给出正确答案,而不是自信地给出一个编造的答案。对于研究者而言,TN-GSPO提供了一种更合理的多工具智能体训练范式,可以推广到其他需要外部工具调用的AI任务上。
有兴趣深入了解技术细节的读者,可以通过编号arXiv:2606.27974在arXiv平台检索完整论文,代码也已在GitHub上开源,地址可通过论文中的链接获取。
Q&A
Q1:ProMSA和普通的RAG检索增强方法有什么本质区别?
A:普通RAG是一次性检索然后直接生成答案,检索策略固定,失败了无法纠正。ProMSA则像一个主动调查的侦探,可以根据每一步的检索结果决定是继续查还是停下来,还可以在第一次检索失败后自动排除错误结果再次尝试,形成一个闭环的搜索推理过程。
Q2:TN-GSPO与GRPO相比解决了什么具体问题?
A:GRPO在训练多工具智能体时,只按生成文字的数量来归一化训练信号,会导致AI倾向于"少用工具、少写字"来获得更稳定的优化信号,最终收集的证据不足。TN-GSPO额外把工具调用次数纳入归一化分母,让训练信号的强度与实际决策复杂度相匹配,从而引导AI学会在需要时合理使用多次工具调用。
Q3:ProMSA在什么类型的视觉问答问题上提升最明显?
A:ProMSA在涉及长尾实体(即训练数据中很少出现的偏僻实体)的知识型问题上提升最为显著,尤其是那些需要先识别图中实体再追查其属性的问题,以及需要跨多个维基百科页面进行多步推理的问题。对于AI本身参数记忆中已有答案的常见知识,提升幅度相对有限。
热门跟贴