港中大突破：AI实现联网图像搜索增强生成能力突破|奥运会|港中大突破

这项由香港中文大学MMLab实验室、加州大学洛杉矶分校和加州大学伯克利分校联合完成的研究发表于2026年3月的arXiv预印本（论文编号：arXiv:2603.28767v1），有兴趣深入了解的读者可以通过该编号查询完整论文。

当下的AI图片生成技术确实已经相当惊艳，能够根据文字描述创造出栩栩如生的图像。然而，这些AI就像是一位才华横溢但与世隔绝的画家——它们只能依靠训练时学到的"陈年旧识"来作画。当你要求它们画出最新的明星、刚刚竣工的建筑或者今年流行的服装时，这些AI往往就"抓瞎"了，因为它们的知识库在训练完成后就被"冻结"了，无法获取最新信息。

更糟糕的是，许多需要画的内容往往涉及复杂的现实世界知识，需要从多个来源搜集信息才能准确描绘。比如要画一张"2024年获得普利兹克建筑奖的建筑师在他的横滨工作室里"的图片，AI不仅需要知道2024年的获奖者是谁，还要了解这位建筑师的长相、他的代表作品、工作室的布置等等细节信息。这些信息往往分散在网络的各个角落，需要像侦探一样多方查证才能获得完整拼图。

研究团队发现，虽然一些高端的商用AI工具（如Nano Banana Pro）已经开始尝试在生成图片前进行网络搜索，但它们通常只能搜索文字信息，无法获取视觉参考，这就像是让一位从未见过玫瑰的画家仅凭文字描述"红色、有刺、花瓣层叠"来画玫瑰一样困难。

为了解决这个问题，研究团队开发了一个名为Gen-Searcher的创新系统，这是全球首个专门为图片生成而训练的"网络搜索代理"。这个系统就像是给AI配备了一位专业的研究助手，能够主动在互联网上进行多轮深度搜索，既能查找文字资料验证事实，又能寻找相关的参考图片，然后将这些信息整合成详细的创作指南，最终指导图片生成器创作出准确、丰富的图像。

一、突破性的"AI网络侦探"是如何工作的

Gen-Searcher的工作原理就像一位经验丰富的调查记者在准备一篇深度报道。当收到一个复杂的图片生成请求时，它不会急于动手，而是先制定一个详细的调查计划。

整个过程可以比作准备一场重要的历史剧拍摄。假设你要拍摄一部关于某位历史人物的电影，你不能仅凭编剧的想象就开始拍摄，而需要派遣专业团队进行大量的历史考证工作。Gen-Searcher就扮演了这样一个专业考证团队的角色。

系统配备了三种专门的"调查工具"。第一种是文字搜索工具，就像图书馆的检索系统，能够快速查找相关的事实信息，比如人物的全名、事件的准确日期、地点的具体描述等等。第二种是图像搜索工具，相当于一个巨大的视觉资料库，能够根据文字描述找到相关的参考图片，帮助AI了解目标对象的真实外貌、服装样式、环境布置等视觉细节。第三种是网页浏览工具，当前两种工具提供的信息还不够详细时，它能够深入特定网页进行更细致的内容分析，就像是派研究员到档案馆查阅原始资料一样。

整个搜索过程是循序渐进的。系统首先会分析用户的请求，识别出需要查证的关键信息点，然后有针对性地使用不同的工具进行搜索。每获得一批新信息后，它会重新评估还缺少什么内容，决定下一步的搜索策略。这个过程会持续进行，直到收集到足够的信息来支撑高质量的图片生成。

最终，Gen-Searcher会将所有搜集到的信息整合成一个详细的"创作指南"，其中包含经过验证的事实描述和精选的视觉参考图片。这个指南就像是给画家提供的详尽素材包，确保最终生成的图片既准确又丰富。

二、构建专业训练数据的"制片厂流水线"

训练一个能够进行专业网络搜索的AI系统，就像培养一位优秀的调查记者，需要大量高质量的实践案例。然而，市面上并没有现成的训练材料——毕竟，谁会专门收集"复杂搜索问题+搜索过程+最终图片"这样的完整案例呢？

研究团队只好自己动手，建立了一条完整的"数据制作流水线"。这个过程就像是开办一家专门制作教学案例的制片厂，每个环节都经过精心设计。

整个制作流程分为四个关键阶段。第一阶段是"剧本创作"，研究团队设计了巧妙的提示策略，指导强大的AI助手（Gemini 3 Pro）创造各种需要深度搜索的复杂场景。这些场景覆盖了大约20个不同领域，从动漫、建筑、艺术、天文学到生物学、名人、化学、文化等等，确保训练数据的丰富性和多样性。同时，他们也将一些现有的深度研究问答数据集转换成适合图片生成的格式，主要补充了新闻类场景。

第二阶段是"实地拍摄"，也就是生成搜索轨迹。系统会让Gemini 3 Pro扮演一位专业调查员的角色，配备前面提到的三种搜索工具，针对每个复杂场景进行多轮深度调查。这个过程完全模拟真实的搜索行为：分析问题、制定计划、执行搜索、分析结果、调整策略、继续搜索，直到获得足够信息。整个过程中的每一步都被详细记录下来，形成完整的"调查档案"。

第三阶段是"后期制作"，使用顶级的商用图片生成工具（Nano Banana Pro）根据搜集到的信息和参考图片创作出高质量的目标图像。这些图像成为整个训练案例的"标准答案"。

最后一个阶段是"质量检验"，使用另一个强大的AI评判系统（Seed1.8）从多个维度对生成的案例进行评分，包括是否真的需要搜索、内容是否准确、是否符合要求、视觉质量如何、文字渲染是否清晰、是否安全等等。结合严格的规则筛选，最终从大约3万个原始案例中精选出约1.7万个高质量样本。

通过这个精心设计的流水线，研究团队最终构建了两个专门的训练数据集：包含1万个样本的Gen-Searcher-SFT-10k用于基础技能训练，以及包含6千个样本的Gen-Searcher-RL-6k用于高级策略优化。同时，他们还从中挑选出630个人工验证的样本，构建了一个名为KnowGen的专业评测基准，专门用于评估AI在知识密集型图片生成任务中的表现。

三、KnowGen评测基准：AI图片生成的"高考试卷"

为了客观评估AI在复杂现实场景下的图片生成能力，研究团队精心设计了KnowGen评测基准，就像为AI图片生成系统设计了一场"专业能力高考"。

这场"高考"的独特之处在于，它专门考查那些需要丰富现实世界知识的图片生成任务。与传统的图片生成测试（主要关注"画得像不像"或"画得美不美"）不同，KnowGen更关心"画得对不对"——AI是否真的理解并准确表现了复杂的现实世界信息。

考试内容被精心分为两大类别。第一类是"科学与知识"板块，包含天文学、生物学、化学、物理学、工程学、医学、工业、建筑、历史、地理、宗教、政治、文化、艺术和体育等15个领域。这类题目通常需要准确的事实知识、专业概念理解以及精确的视觉细节呈现。比如要求AI画出某种特定化学元素的热蒸发值对比图，并且图中的数值、符号、同位素信息都必须完全准确。

第二类是"流行文化与新闻"板块，涵盖动漫、游戏、电影、明星、海报和一般新闻等6个类别。这类题目更多涉及快速变化的现实世界信息、流行文化元素以及需要准确渲染的文字或外观细节。例如要求AI画出某个游戏中特定角色的官方形象，包括准确的服装设计、武器样式以及角色属性面板上的具体数值。

为了确保评分的客观性和准确性，研究团队开发了一套名为K-Score的专业评分体系。这套评分系统就像奥运会的打分规则一样严格且全面，从四个维度对生成图片进行评估。

第一个维度是"忠实度"，评估生成的图片是否包含了原始要求中的所有必要元素，比如该出现的人物是否都在、要求的场景是否正确、指定的风格是否得到体现等等。第二个维度是"视觉正确性"，这是最严格的评判标准，要求生成图片中的关键视觉属性必须与真实世界的目标对象完全一致，比如名人的长相、建筑的外观、物品的形状颜色等等。

第三个维度是"文字准确性"，专门评估图片中需要包含的可读文字是否存在、清晰且正确。比如如果要求在图片中显示某个奖项的具体名称、某个地点的准确日期或者某个产品的型号规格，这些文字信息必须完全准确才能得分。最后一个维度是"美观度"，评估图片的整体视觉质量和艺术水准。

整个评分过程采用三级制：1分代表完美满足要求，0.5分表示基本正确但有轻微瑕疵，0分表示明显不符合要求。最终的K-Score通过加权平均计算得出，其中视觉正确性和文字准确性各占40%的权重，忠实度和美观度各占10%。这样的权重设计突出了准确表现现实世界信息的重要性。

四、"双导师制"训练：让AI既会搜索又会生成

训练Gen-Searcher就像培养一位既要会调研又要会创作的全能型记者，需要特殊的"双导师制"教学方案。整个训练过程分为两个阶段，每个阶段都有不同的重点和方法。

第一阶段是"基础技能培训"，采用传统的监督学习方法。就像让学徒跟着师傅学手艺一样，系统会仔细观摩之前构建的1万个高质量搜索案例，学习如何使用各种搜索工具、如何分析搜索结果、如何选择有用的参考图片，以及如何将收集到的信息整合成最终的创作指南。这个阶段确保AI掌握了基本的"手艺活"。

第二阶段是"高级策略优化"，采用了一种名为强化学习的先进训练方法。这就像是让已经掌握基础技能的记者进入实战环境，通过实际执行任务并根据效果反馈来持续改进工作策略。系统会尝试处理新的复杂任务，生成搜索策略和创作指南，然后根据最终图片的质量获得"奖励"或"惩罚"，从而学会什么样的搜索和整合策略更有效。

然而，研究团队在训练过程中遇到了一个特殊挑战。单纯使用最终生成图片的质量作为反馈信号存在很大问题，因为即使AI搜集到了正确完整的信息，开源的图片生成器（如Qwen-Image）由于自身能力限制，有时仍然无法生成高质量的图片。这就像是一位记者写出了完美的采访稿，但印刷厂的技术问题导致报纸印刷效果不佳，这种情况下用印刷效果来评判记者的工作质量显然不公平。

为了解决这个问题，研究团队设计了巧妙的"双导师评价体系"。除了让"图片质量导师"评估最终生成图片的效果外，还引入了一位"信息质量导师"，专门评估AI收集和整合的文字信息是否充分、准确且适合用于图片生成。这位导师会判断：搜集到的信息是否包含了生成目标图片所需的所有关键要素？描述是否准确详细？参考图片的选择是否合适？

最终的训练反馈结合了两位导师的评价，既确保AI学会收集正确信息，又引导它关注实际的生成效果。这种双重反馈机制大大提高了训练的稳定性和有效性，让AI能够学会更好的搜索和信息整合策略。

通过这种精心设计的双阶段训练，Gen-Searcher不仅掌握了基本的搜索技能，还学会了如何根据实际效果动态调整策略，成为了一个真正智能的搜索代理。

五、实战测试：从"学渣"变"学霸"的惊人转变

当Gen-Searcher正式接受KnowGen"高考"检验时，展现出的能力提升可以说是让人瞠目结舌。整个测试过程就像是见证一位"学渣"经过专业培训后变成"学霸"的励志故事。

在没有Gen-Searcher帮助的情况下，大部分开源AI图片生成器在这场"高考"中的表现可以用"惨不忍睹"来形容。即便是相对强大的Qwen-Image，K-Score也仅有14.98分，而其他许多知名的开源工具如FLUX、Stable Diffusion等的得分甚至只有9到15分左右。这就像是让一群从未接触过现代世界的古代画师去画现代建筑和流行文化，结果可想而知。

然而，当这些"古代画师"配备了Gen-Searcher这位"现代化研究助手"后，情况发生了戏剧性的变化。以Qwen-Image为例，它的K-Score从14.98分跃升到31.52分，提高了整整16.54分——这种程度的提升在AI领域是相当罕见的。

更令人惊讜的是Gen-Searcher展现出的"跨平台兼容性"。研究团队发现，用Qwen-Image训练出的Gen-Searcher可以直接应用到其他完全不同的图片生成器上，而且同样能带来显著提升。当它与Seedream 4.5配合时，得分从31.01提升到47.29，增长了16.28分。即便是与已经具备基础搜索功能的商用工具Nano Banana Pro合作，K-Score也从50.38提升到53.30，达到了测试中的最高分。

这种"通用性"的意义不容小觑，这意味着Gen-Searcher不是针对某个特定工具的"定制化补丁"，而是一个真正通用的智能搜索代理，能够为各种不同的图片生成器提供标准化的信息搜集和整合服务。

从具体的表现维度来看，Gen-Searcher的提升主要集中在"视觉正确性"和"文字准确性"这两个最关键的方面，这恰恰证明了网络搜索在获取准确现实世界信息方面的价值。通过搜集真实的参考图片和准确的事实信息，AI终于能够生成那些既符合现实又富含细节的复杂图像。

有趣的是，在某些情况下，美观度略有下降，这可能是因为生成器需要同时处理多个参考图片和复杂信息，在整合过程中难以达到最优的视觉构图。但考虑到准确性的巨大提升，这种微小的美观度牺牲是完全可以接受的。

为了进一步验证Gen-Searcher的通用性，研究团队还在另一个名为WISE的知识型图片生成基准上进行了测试。结果显示，Gen-Searcher同样带来了显著提升，将Qwen-Image的表现从0.62提升到0.77，增幅达到0.15分。这进一步证明了该系统在不同类型的知识密集型图片生成任务中都能发挥作用。

六、解剖成功秘诀：每个组件都不可或缺

为了搞清楚Gen-Searcher成功的真正原因，研究团队进行了一系列"解剖实验"，就像医生逐一检查身体各个器官的功能一样，测试了每个组件对整体性能的贡献。

这些实验的结果展现了一个有趣的"进化过程"。最基础的Qwen-Image在KnowGen测试中只能得到14.98分，就像一个完全没有准备的考生。当研究团队为它配备了一个基于人工设计规则的简单搜索流程后，得分提升到22.91分，这证明了"临时抱佛脚"式的外部搜索确实有用。

接下来，当系统接受了专门的监督学习训练（使用Gen-Searcher-SFT数据集）后，得分进一步提升到28.15分。这个阶段的提升说明，与其依靠人工设计的死板规则，让AI通过观察大量案例来学习搜索策略要有效得多。系统学会了如何更好地组织搜索行为、如何分析和整合检索到的信息，以及如何生成更有效的创作指南。

然而，真正的突破来自强化学习阶段的"实战训练"。完整的Gen-Searcher系统最终达到了31.52分，比仅有监督学习的版本又提升了3分多。这个阶段的改进虽然看起来不如前面几步那么戏剧化，但实际上代表了从"照猫画虎"到"举一反三"的质的飞跃。通过强化学习，AI不再只是机械地模仿训练样本，而是学会了根据实际效果反馈来动态调整和优化搜索策略。

特别有趣的是对"双导师制"的验证实验。当研究团队移除文字信息质量导师，只保留图片质量导师时，系统性能下降到29.59分。相反，如果只保留文字导师而移除图片导师，性能下降到29.36分。这个结果清楚地证明了两个导师都是必不可少的：文字导师确保AI搜集到正确充分的信息，图片导师确保这些信息真正有助于生成高质量图像。

这些"解剖实验"揭示了一个重要道理：Gen-Searcher的成功不是靠某个单一的"银弹"技术，而是多个精心设计组件的协同工作。学习型搜索策略、强化学习优化和双重反馈机制，每一个环节都对最终效果有着不可替代的贡献。

七、看图说话：从失败案例到成功范例

通过具体的生成案例对比，我们可以更直观地理解Gen-Searcher带来的改变有多么显著。这些对比就像是"整容前后对比照"，清楚展现了系统改进的实际效果。

在一个典型的测试案例中，用户要求生成"一张专业肖像照，显示2024年获得普利兹克建筑奖的建筑师坐在他的横滨工作室里"。对于没有配备Gen-Searcher的普通图片生成器来说，这个要求基本上是"不可能完成的任务"。它们可能会生成一个看起来像建筑师的人坐在某个办公室里，但这个人的长相肯定不对，办公室的布置也是随意想象的，更别提桌上的铭牌或书架上的作品集这些细节了。

然而，配备了Gen-Searcher的系统会首先进行详细的"背景调查"：2024年的普利兹克奖得主是谁？这位建筑师长什么样？他的工作室在横滨的哪个位置？工作室通常是什么样的布局？他的代表作品有哪些？获奖感言中提到了什么重要信息？

通过多轮搜索，系统不仅找到了建筑师的准确姓名和照片，还搜集到他工作室的实景图片、代表作品的图像，甚至包括他常用的办公用品样式等细节信息。基于这些丰富的参考材料，最终生成的图像不仅人物相貌准确，工作环境也富有真实感，桌上的铭牌显示正确的姓名，书架上的作品集也对应他的实际项目。

另一个有趣的案例涉及流行文化内容。用户要求生成"《原神》游戏中三个具有不同动物耳朵特征的神将角色在夜市拉面摊共享美食"的场景。普通的图片生成器可能会创造出三个随意的动漫角色，耳朵形状和服装设计完全凭想象。但Gen-Searcher会先搜索《原神》的角色资料库，确认哪些角色确实具有动物耳朵特征，它们的准确外观设计是什么样的，然后寻找相关的参考图片来确保角色造型的准确性。

特别值得注意的是，即使是已经具备基础搜索功能的高端商用工具，配备Gen-Searcher后仍然有明显改善。这主要是因为Nano Banana Pro等工具虽然能进行文字搜索，但缺少图像搜索能力，无法获取准确的视觉参考。Gen-Searcher的图像搜索功能有效弥补了这个短板，让最终生成的图像在视觉细节方面更加准确。

当然，系统也不是万能的。在一些极其复杂的多角色场景中，即使Gen-Searcher搜集到了正确信息，底层的图片生成器仍然可能在处理多个对象的一致性方面出现问题。这提醒我们，搜索代理的能力提升虽然显著，但图片生成器本身的技术水平仍然是影响最终效果的重要因素。

八、调参秘籍：平衡的艺术

在Gen-Searcher的训练过程中，如何平衡"文字信息导师"和"图片质量导师"的影响权重是一个关键问题，就像调制鸡尾酒时需要找到各种配料的最佳比例一样。

研究团队对这个平衡参数进行了细致的测试。当系统完全依赖图片质量反馈（权重为0）时，性能只有29分左右，这证实了前面提到的问题：底层图片生成器的不稳定性会给训练带来噪声。相反，当系统只依赖文字信息质量反馈（权重为1.0）时，性能同样不佳，只有29分左右，这说明脱离实际生成效果的纯文字评估也不够准确。

令人欣慰的是，当权重设置在0.3到0.6之间时，系统性能都保持在31分以上的高水平，这表明Gen-Searcher对这个超参数并不敏感，具有良好的稳健性。研究团队最终选择了0.5的平衡权重，让两个导师的影响力平分秋色。

这种稳健性对于实际应用来说非常重要，因为这意味着用户不需要花费大量时间来精细调整参数，系统在合理的参数范围内都能保持良好的性能。

九、展望未来：开源生态的新起点

说到底，Gen-Searcher的意义远不止于解决当前AI图片生成的"知识盲区"问题。它更像是为整个开源AI生态系统点亮了一盏明灯，展示了如何通过巧妙的系统设计来弥补基础模型的不足。

从更宏观的角度来看，Gen-Searcher代表了AI系统发展的一个重要趋势：从封闭式的"知识记忆"转向开放式的"信息获取"。传统的AI系统就像图书馆里的古老百科全书，知识丰富但更新困难。而Gen-Searcher这样的系统则像是配备了现代化搜索工具的研究助手，能够实时获取最新信息，适应快速变化的世界。

研究团队已经将所有的研究成果完全开源，包括训练数据、模型参数、评测基准和实现代码。这种开放态度为后续研究提供了坚实基础，相信会有更多研究者在此基础上开发出更强大、更实用的搜索增强型AI系统。

归根结底，Gen-Searcher的成功告诉我们，AI的未来不在于创造更大更强的"超级大脑"，而在于设计更智能的协作机制，让不同的AI组件各展所长，形成强大的整体能力。当AI学会了主动学习和实时搜索，我们或许正在见证一个更加智能、更加实用的AI时代的到来。这项研究为我们展现了一个令人期待的未来：AI不再是被动的工具，而是能够主动探索、学习和创造的智能伙伴。

Q&A

Q1：Gen-Searcher到底是什么东西？

A：Gen-Searcher是由香港中文大学等机构开发的AI搜索代理，专门为图片生成服务。它就像给AI配备了一位专业研究助手，能够主动在互联网上搜索文字信息和参考图片，然后整合成详细的创作指南，帮助图片生成器创作出更准确、更丰富的图像。

Q2：为什么现在的AI图片生成器需要Gen-Searcher这样的帮助？

A：现在的AI图片生成器就像与世隔绝的画家，只能依靠训练时学到的"陈年旧识"作画。当需要画最新明星、新建筑或复杂现实场景时，它们往往"抓瞎"，因为知识库在训练完成后就被"冻结"了。Gen-Searcher通过实时搜索解决了这个问题。

Q3：普通人能用上Gen-Searcher吗？

A：目前Gen-Searcher主要还是研究阶段的技术，研究团队已经完全开源了所有代码和数据。虽然普通用户暂时无法直接使用，但随着技术发展和商业化应用，未来很可能会集成到各种图片生成应用中，让每个人都能享受到更智能的AI绘画服务。