打开网易新闻 查看精彩图片

这项由纽约大学上海校区、纽约大学以及清华大学联合开展的研究,以预印本形式发布于2026年4月,论文编号为arXiv:2604.05846。有兴趣深入了解的读者可通过该编号在arXiv平台上查阅完整论文。

现实世界里的知识从来不是孤立存在的。一篇学术论文引用了另一篇,一件商品常常被同一批顾客一起购买,一个Reddit帖子的作者也会在其他版块留下痕迹。这些"谁和谁有关系"的信息,构成了一张张错综复杂的关系网络,专业上称为"图"(Graph)。然而,目前最强大的人工智能——大语言模型(Large Language Models,简称LLM,GPT系列、Qwen系列都属于此类)——面对这类关系网络时,却有些像一位只会死记硬背教科书的学生:它能读懂单篇文章的内容,却无法主动去查阅"这篇文章的上下游关联文献"来辅助判断。

研究团队把这个问题比作侦探破案。一个只靠脑子里已有知识的侦探,在面对复杂案件时难以应对;真正高明的侦探会主动走访现场、查阅档案、追踪线索,在证据的积累中一步步逼近真相。AgentGL就是这样一个"会主动走访图谱现场"的AI侦探,它是目前第一个将强化学习(Reinforcement Learning,RL)与图谱学习结合起来的框架,能让大语言模型像侦探一样,在关系网络中自主导航、收集证据、推理决策。

一、为什么普通的AI读不懂"关系"

要理解这个问题,可以用一个生活场景来类比。假设你要判断一本书是不是科幻小说,仅凭书的封面简介,你或许能猜个七八分。但如果你还能看到"购买这本书的读者同时也买了《三体》《基地》《沙丘》",那你的判断会更加准确——因为这些购买关系本身就是有力的旁证。

现有的AI处理这类问题时,大致分为两种路子。一种是传统的图神经网络(GNN),这类模型很擅长处理节点之间的拓扑关系,但对文字内容的理解能力有限,像是一个只看地图却不读情报的侦探。另一种是基于大语言模型的方法,又分为"一次性塞入静态信息"的GraphLLM和"先重建知识图谱再检索"的GraphRAG两类。GraphLLM的做法是推理前把邻居信息一次性打包交给模型,之后就不再更新,好比侦探开案前领到一份固定的卷宗,卷宗发完就不能再追加新证据了。GraphRAG则是把原始文本重新构建成一个人工知识图谱,再从中检索,代价高昂,而且重建出来的图谱并不保留原始数据中真实的拓扑关联。

这两条路都有明显的短板:面对复杂、动态的关系网络时,它们都缺乏"边推理边追查新线索"的能力。正是这个缺口,催生了研究团队提出的"主动图谱学习"(Agentic Graph Learning,AGL)范式,而AgentGL就是实现这一范式的具体框架。

二、侦探的工具箱:四种图谱搜索技能

一位合格的侦探需要有趁手的调查工具。AgentGL给大语言模型配备了四种专门针对图谱结构的搜索工具,每种工具对应不同的调查思路。

第一种叫"一跳邻居搜索"。侦探在调查一个嫌疑人时,首先会去问他的直接邻居——住在同一栋楼的人、他常去的店铺老板。在图谱里,这就是查询与目标节点直接相连的节点。对于链接预测任务(判断两个节点之间是否应该有边),这个工具会优先寻找两个节点的"共同邻居",再补充各自的独有邻居,并通过一个结合语义相似度和查询相关度的评分机制,挑出最有价值的邻居节点。这里有一个细节值得关注:评分时有一个参数λr来平衡"根据查询内容找相关节点"和"根据目标节点本身找相关节点"两种倾向,实验证明两者各占一半(λr=0.5)时效果最好,纯粹依赖任何一方都会导致性能下滑。

第二种叫"二跳邻居搜索",逻辑和第一种完全相同,只是调查范围扩大到"邻居的邻居",就像侦探不只问楼里的人,还去问了那些人的朋友。这种扩展有时能发现直接邻居无法提供的间接证据。

第三种叫"结构显著性搜索",借助一种叫做PPR(个性化PageRank)的图谱算法,从整张图中挑出结构上最重要、最具影响力的节点。PageRank最初是谷歌用来给网页排名的算法,道理类似:一个被很多重要节点连接的节点,本身也更重要。这个工具相当于侦探去查案子里的"关键人物"——那些认识很多人、消息最灵通的节点,往往能提供宏观视角。

第四种叫"图谱密集搜索",原理类似RAG(检索增强生成)在文本领域的做法,通过节点的语义嵌入向量来找语义上最相似的节点,弥补前几种基于结构的搜索在语义上的不足。即便两个节点在图谱中相距甚远、没有直接的拓扑连接,如果它们描述的内容高度相似,这个工具也能把它们关联起来。

这四种工具覆盖了两个关键维度:局部对全局、结构对语义,确保侦探不会因为视角单一而错过关键证据。

三、学徒侦探的养成:两阶段强化训练

配备了调查工具之后,侦探还需要学会什么时候用哪种工具、怎么解读证据。AgentGL采用强化学习来训练这套决策能力,整个训练分为两个阶段,就像培养一名侦探先要打基础、再要精打细算一样。

第一阶段叫"图谱原生搜索策略引导",目标是让模型学会使用工具。训练时,模型对每道题生成多个不同的侦查轨迹,然后根据最终答案是否正确来评分。奖励由三部分构成:格式奖励保证模型输出的搜索指令和答案格式正确、机器可解析;准确率奖励直接奖励答对;覆盖率奖励则鼓励模型在早期探索中把四种工具都用上,防止模型偷懒只依赖某一种工具(或者干脆不搜索)。

覆盖率奖励的设计非常关键。实验发现,如果去掉这个奖励,模型在训练过程中会越来越少地使用搜索工具,最终退化成"完全不搜索"的状态,答题正确率也随之大幅下滑。这好比一个学徒侦探如果从一开始就不鼓励他多尝试不同调查手段,他会慢慢养成只靠拍脑袋猜的坏习惯。

第二阶段叫"抑制过度搜索",目标是让模型学会适可而止。第一阶段结束后,模型已经掌握了使用工具的能力,但它倾向于把所有搜索额度都用满——即使证据已经足够充分,也要继续搜索。这不仅浪费算力,还会引入不必要的噪声,干扰推理。

为了让模型学会"够了就停",研究团队引入了"受约束思维"机制。具体做法是在每次工具调用完成后,向模型注入一句提示:"请先仔细回顾刚才搜索到的文档,然后再决定是否需要继续搜索。"这句话强迫模型在每次行动前先做反思,把搜索过程从"习惯性连续行动"变成"有意识的逐步决策"。

与此同时,训练还引入了"认知密度正则化":如果模型在搜索到证据之后的推理段落太短(少于100个词),就会受到惩罚。这是为了防止模型走另一个极端——虽然减少了搜索次数,但每次只是草草看一眼证据就跳过,推理不够深入。第二阶段的奖励不再包含覆盖率奖励,而是把格式奖励、准确率奖励和认知密度奖励结合起来,引导模型在减少搜索次数的同时,真正把每次获取的证据消化透彻。

实验数据验证了这套两阶段设计的必要性。单独只做第一阶段,模型搜索次数多、准确率较高,但搜索成本高;单独只做第二阶段,模型会直接崩溃,退化成完全不搜索的状态,准确率反而最差;只有把两个阶段串联起来,才能实现"比第一阶段少搜索约17.5%的次数,同时平均准确率还提高了约2.4%"的最优效果。

四、由易到难的练级路线:图谱条件课程学习

侦探学校不会一上来就让学徒去破杀人案,而是从简单的偷盗案开始练手,逐步提升难度。AgentGL也设计了类似的训练课程,叫做"图谱条件课程学习"(GCCL)。

关键在于,怎么定义哪道题"简单"、哪道题"难"?研究团队充分利用了图谱本身携带的信息。对于节点分类任务(判断一个节点属于哪个类别),难度取决于两个因素:一是"同质性",即这个节点的邻居里有多少比例和它同类——邻居大多同类的节点容易判断,邻居类别混杂的节点难以判断;二是节点的度数,即它连接了多少其他节点——连接很多邻居的"枢纽"节点信息更丰富。研究团队用一个叫做"Wilson下界"的统计公式把这两点合并成一个难度分数,把训练数据分成简单、中等、困难三档,按顺序训练。

对于链接预测任务(判断两个节点之间是否应该有边),难度的定义也很巧妙。"简单"的案例是那些文本内容相似、实际上也有边的正样本,以及文本内容差异大、实际上没有边的负样本——因为这类案例"语义和结构一致",侦探容易判断。"困难"的案例是"文本内容相似却实际上没有边"的负样本——语义上像有边,但结构上没有,这是最容易迷惑侦探的情形。

实验证明,GCCL能显著加快训练收敛速度,减少训练过程中的奖励波动,并在最终准确率上带来约0.65%的提升。虽然数字看起来不大,但在竞争激烈的基准测试中,这个提升相当稳定。

五、在决策交叉口上的推理流程

把以上所有部分拼在一起,AgentGL的工作方式就像一个侦探在审讯室里的推理过程。给定一道题(比如"这篇论文属于哪个cs子领域?"),模型在思考块(think标签)内展开推理:先根据已有信息形成初步假设,然后决定调用哪种搜索工具、用什么关键词查询,图谱环境执行搜索并返回证据文档,模型读取证据后再次评估当前假设是否需要调整,决定是继续搜索还是直接给出答案。整个过程在answer标签关闭时终止,或者在达到最大搜索预算(默认为4次)时强制终止。

这套"推理—行动—观察"的循环,和人类侦探的工作节奏高度一致:有了初步判断之后不急着下结论,而是主动寻找能证伪或证实的新证据,直到证据链足够完整才收案。

六、实验结果:侦探比"死记硬背"的学生强多少

研究团队在7个文本属性图数据集上进行了系统评测,覆盖引文网络(OGB-Arxiv、PubMed、Arxiv-2023)、亚马逊商品图(OGB-Products、Amazon-Photo、Amazon-Computers)和社交网络(Reddit),涉及节点分类和链接预测两类任务,并分别用Qwen2.5-3B和Qwen2.5-7B作为主干模型。对手包括传统GNN(GCN、RevGAT、GraphSAGE)、多种GraphLLM方法(LLaGA、GraphGPT、GraphPrompter、GraphICL)、GraphRAG方法(LinearRAG、HippoRAG2、GraphCoT)以及通用搜索智能体(Search-R1、Search-O1)。

训练只在OGB-Arxiv和OGB-Products上进行,然后在所有数据集上测试,包括从未见过的零样本迁移场景。结果非常清晰:以7B模型为主干时,AgentGL在域内节点分类上平均比最强基线高出12.7%,在零样本迁移场景下高出24.4%;在域内链接预测上平均高出26.3%,在零样本迁移场景下高出22.4%。3B模型的表现同样稳定,域内节点分类高出14.5%,链接预测高出26.3%,零样本迁移分别高出26.6%和22.4%。

单项极值同样令人印象深刻:节点分类最大绝对提升达17.5%,链接预测最大绝对提升达28.4%。

从backbone规模的影响来看,从3B升级到7B,AgentGL的节点分类域内平均提升9.0%,零样本提升11.8%;链接预测域内提升5.6%,零样本提升8.7%。规模提升在零样本场景下收益更大,说明更大的模型更能把学到的工具使用策略泛化到陌生数据上。

两种强化学习算法(GRPO和REINFORCE++)也呈现出有趣的互补特性:GRPO在节点分类上平均高出0.9%,REINFORCE++在链接预测上平均高出3.3%。根据目标任务选择算法,可以进一步榨取性能。

七、从案例看侦探如何思考

研究附有真实的推理案例,让人得以一窥AgentGL的思考过程。在一个亚马逊商品分类案例中,目标商品的描述是"三脚架不够稳固,腿部会晃动、铰链偏弱,不推荐用于步枪或跪射"。模型读完描述后,直接调用一跳搜索,查询与该商品常被一起购买的商品,返回了五条记录,全都是各种三脚架评测,提到稳定性、载重和铰链耐久度等相似主题。模型随后判断这批邻居强烈指向"三脚架"品类,但为保险起见进一步调用二跳搜索,确认邻居的邻居仍以三脚架生态为主(包括脚架头、快装板等配件),没有出现偏离的信号。最后调用PageRank搜索做全局确认,结果一致。模型在第四次搜索之前主动判断"继续搜索可能是多余的",直接给出答案"Tripods & Monopods",正确。

在一个Reddit链接预测案例中,两个节点分别是"拉格猎隼在拉贾斯坦邦的目击记录"和"大凤头百灵在古吉拉特邦的求偶行为记录"。模型识别出两者都是印度鸟类观察帖,调用一跳搜索寻找共同邻居,返回了五个共同邻居,全部是来自古吉拉特-库奇地区的鸟类观察帖,与两个目标节点高度一致。模型判断"共同邻居密集且主题高度一致,是典型的共同发帖模式,说明两个节点属于同一个紧密的社群",直接输出"yes",正确。整个推理只用了一次搜索,比允许的最大次数少了三次。

这两个案例完整展示了AgentGL的侦探逻辑:先有初步判断,再用工具收集旁证,证据充分时果断收案,不做多余的调查。

说到底,AgentGL解决的问题归根结底是:如何让AI在面对关系密布的真实世界数据时,不再只依赖"死背书",而是学会主动翻档案、查关系、追线索。研究团队用强化学习训练出来的这套两阶段策略,让模型在"敢用工具"和"用够就停"之间找到了一个稳定的平衡点,而图谱条件课程学习则让这个平衡点的训练过程更加平稳可靠。

当然,这套框架目前也存在一些局限。它还只能处理"文字属性"的图谱,对于节点还带有图片、音频等多模态信息的图谱,尚无法支持。此外,两个训练阶段的数据比例需要仔细调配,这个超参数的鲁棒性还有待进一步研究。对于节点极多、边极密的超大图谱,效率问题也是未来需要面对的挑战。

这些局限并不妨碍这项研究所指向的方向:让AI像有经验的侦探一样,在复杂的关系网络中既能主动调查,又能在证据充分时果断作判。这对于依赖关系数据的金融风控、学术推荐、社交网络分析等领域,都有相当直接的参考价值。有兴趣深入了解技术细节的读者,可以通过arXiv编号2604.05846查阅完整论文,代码已在GitHub上公开,地址可通过论文内链接访问。

Q&A

Q1:AgentGL和普通的图神经网络有什么区别?

A:图神经网络(GNN)擅长处理节点之间的拓扑连接关系,但对节点上的文字内容理解有限,也不能在推理过程中主动追加新的信息。AgentGL则是让大语言模型在推理时主动调用图谱搜索工具,边思考边收集证据,更像一个动态调查的过程,而不是一次性读完卷宗就下结论。两者的核心差别在于:GNN是"静态聚合",AgentGL是"动态导航"。

Q2:强化学习在AgentGL里具体是怎么工作的?

A:AgentGL不需要人工标注"第一步该用哪个工具、第二步该用哪个工具"这种逐步骤的监督数据,而是让模型自己尝试不同的搜索策略,最后根据答案对不对来给整条推理路径打分。打分高的路径被鼓励重复,打分低的被抑制。两个训练阶段分别用不同的奖励组合引导模型先学会用工具、再学会适可而止。

Q3:图谱条件课程学习对训练有多大帮助?

A:实验表明,GCCL能加快奖励收敛速度、减少训练中的波动,并带来约0.65%的准确率提升。更关键的是,它让模型在第二训练阶段能够更稳定地维持较低的搜索次数,而不是在训练后期又退回到大量搜索的状态。这个机制的优势在于完全依赖图谱自身的拓扑和语义属性来估算难度,无需额外的人工标注或昂贵的预实验。