最近,由北京交通大学、兰卡斯特大学、马克斯·普朗克信息学研究所和电子科技大学的研究人员共同完成的一项重要综述研究《LLM-based Agentic Reasoning Frameworks: A Survey from Methods to Scenarios》为我们系统梳理了LLM领域的最新进展。
研究团队观察到,尽管LLM在各个领域展现出巨大潜力,但它们仍存在一些内在限制,如幻觉问题、知识过时以及高昂的训练和推理成本。这些问题限制了LLM在医疗保健和软件工程等关键领域的应用。为了克服这些障碍,学术界积极探索将LLM作为核心引擎,构建能够执行复杂多步推理任务的LLM代理推理框架。
技术背景:从LLM到代理系统
大型语言模型凭借其强大的泛化能力和推理能力,正在迅速重塑从日常生活到特定领域研究的众多方面。然而,传统的LLM主要进行单步推理,难以处理需要多步骤、多角度思考的复杂任务。
代理系统(Agent Systems)的出现解决了这一限制。代理被定义为"通过传感器感知环境并通过执行器对环境采取行动"的系统,能够动态适应环境并采取相应行动。这种新兴范式有机地集成了规划、记忆和工具使用等关键模块,将LLM重塑为能够感知环境、动态适应并采取持续行动的任务执行者。
该论文的核心贡献是提出了一个系统化的分类法,将代理推理框架分为三个渐进层次:单代理方法、基于工具的方法和多代理方法。
为了清晰地描述这一复杂过程,研究团队提出了一个通用推理算法(论文中的算法1)和一套符号表示系统(论文中的表1)。这些形式化描述为理解不同代理推理框架提供了统一的理论基础。
1. 单代理方法
单代理方法专注于增强单个代理的认知和决策能力。从外部指导和内部优化的角度,论文将单代理方法分为两大类:提示工程和自我改进。
1.1 提示工程
提示工程通过丰富代理的初始上下文来增强其性能,对应于算法1中的上下文初始化步骤(第1行)。这一概念转变可以表示为:
其中, 是用户查询, 是精心设计的提示。 通常由多个组件组成:角色扮演视角( )、环境模拟( )、详细任务说明( )和一组上下文示例( )。
图3详细展示了提示工程的四种方法:
角色扮演:为代理分配特定角色,如"你是一位专业的数据科学家"或"扮演一位资深历史学家"。这鼓励代理利用与该角色相关的专业知识、认知框架和语言风格。通过采用角色,模型可以更好地激活特定领域知识,并以更专业的视角构建其推理过程。
环境模拟:通过描述代理操作的特定设置来上下文化代理。这提供了与任务相关的背景信息、规则和约束,使代理能够做出与模拟世界更好地一致的决策。这些环境可以范围从模拟现实世界场景(如股票市场或医疗诊所)到完全虚拟设置(如视频游戏世界)。
任务描述:清晰的任务描述概述了主要目标、约束和预期输出格式,是几乎每个代理系统的基石。结构良好的任务描述指导代理将复杂问题分解为一系列可管理的子任务。
上下文学习:在提示中为代理提供少量示例或演示。这些示例通常采用对 的形式,其中每对 由一个示例输入 及其相应的期望输出 组成。这允许代理无需任何梯度更新即可辨别模式并推广到新的任务实例。
自我改进机制鼓励代理通过内省和自主学习来增强其推理能力。
图4总结了三种互补的范式:
反思:使代理能够对其过去的行动和结果进行事后分析,为未来任务提取宝贵经验。这涉及生成其推理过程的摘要,识别缺陷或低效之处,并以自然语言表达见解。这一过程对应于算法1中的第5行,其中行动 被特别指定为反思 :
迭代优化:与反思的事后性质不同,迭代优化利用整个推理过程来完成预定义的标准或约束,我们将其表示为 。这一机制对代理的基本操作进行了两个关键修改:
首先,标准 被纳入代理的初始上下文中。这一修改确保代理从一开始就意识到优化目标:
其次,代理自主决定何时停止的能力被 取代。一般的终止条件 现在由当前输出 是否满足标准 精确定义:
交互式学习:代表自我改进的最先进水平,交互式学习允许代理基于与动态环境的持续交互从根本上改变其高级目标 。这一范式超越了优化固定计划,使代理能够在战略层面决定下一步做什么。这对应于目标更新机制的增强(算法1中的第6行),其中目标 不再是静态的,而是在每一步重新评估:
2. 基于工具的方法
虽然通用代理推理框架(算法1)通过单个实体 概念化了工具使用,但这种抽象对于推理与特定环境能力深度交织的复杂场景来说是不够的。论文将这一单个实体 扩展为一个全面的工具集 ,其中每个 代表代理可用的不同工具。
在代理选择和利用工具之前,工具首先必须在代理的操作环境中可访问。这种架构集成定义了代理与工具之间的接口和通信协议。论文将这些集成模式分为三种主要模型:基于API的集成、基于插件的集成和基于中间件的集成。
基于API的集成:API(应用程序编程接口)为集成外部工具提供了标准。API提供了稳定、文档齐全的合同,允许代理与工具(如网络搜索引擎)交互,而无需理解其内部实现。代理只需学习根据API规范制定请求并解析返回的数据。
基于插件的集成:插件是直接在代理自身运行时环境中加载和执行的软件组件。与外部API调用不同,插件以更低的延迟运行,并且对代理内部状态有更深入的访问权限。检索增强生成(RAG)是基于插件集成的典型情况。向量数据库直接集成到代理系统中,以工具调用的形式向代理引入特定领域知识,从而提高其答案的可信度。
基于中间件的集成:中间件是位于代理和工具之间的软件层。这一层充当代理的通用适配器或"操作环境",抽象了直接工具交互的复杂性,使LLM免受环境复杂性的影响。中间件层可以管理API密钥,标准化不同工具之间的数据格式,或为代理提供统一的文件系统和执行环境。
当代理面临大型且多样化的工具集 时,有效的工具选择至关重要。挑战在于准确地将给定问题的需求映射到特定工具 的选择上,其中 。基于代理自主性的程度,论文将工具选择策略分为三种主要方法:自主选择、基于规则的选择和基于学习的选择。
自主选择:这一范式突出了代理系统的自主性。代理仅基于可用工具的自然语言描述和输入查询,依靠其内在推理能力自主选择工具。这一过程通常被框定为零样本推理任务,其中代理必须"思考"以将问题与正确的工具连接起来,而无需明确的规则。
与一般的推理步骤一样,工具选择步骤会让代理推理、反思甚至使用工具来决定哪个工具 适合当前条件,这个工具 可以被视为此推理步骤中的输出 :
基于规则的选择:这种方法通过一组预定义的显式规则 来管理代理的工具选择,这些规则将特定任务、意图或状态映射到指定工具。选择过程因此以这些规则为条件:
基于学习的选择:在这种情况下,基于学习的选择指的是一个明确的在线过程,其中代理在推理过程中改进其工具选择策略。这种适应通过行动、反馈和反思的循环发生,改进其并发的工具行动。如论文中的图5所示,代理尝试使用工具完成任务,接收其性能反馈(例如,来自执行结果或人工指导),然后明确反思这一结果以更新后续步骤的上下文 :
2.3工具利用
在选择了合适的工具后,如何有效利用这些工具成为关键。论文将工具利用分为三种模式:顺序使用、并行使用和迭代使用。
顺序利用:在这种模式下,代理按顺序调用工具,其中一个工具的输出通常作为下一个工具的输入,形成清晰的工具链。这适用于可以分解为线性工作流的任务。工具调用的结果被集成到当前上下文中,影响下一次调用。
并行利用:为了提高效率,这种模式涉及在单个推理步骤中同时调用多个工具。代理同时调用多个工具以实现多维信息的同步处理。对于在任何中间推理步骤 中选择的工具集 ,代理将使用 中的每个工具并行生成一组结果。也就是说,对于算法1中的第4行,输出将变为一组输出:
其中
之后,上下文的更新将进一步考虑这个输出集 ,而不是像以前那样的单个输出:
迭代利用:迭代利用涉及一个微观层面的循环,其中代理在更广泛推理过程的单个步骤内反复与工具交互以实现细粒度目标。这与§3.2.2中整个解决方案的宏观层面迭代优化形成对比。这里的重点是完善单个工具使用实例。
虽然单代理框架展示了相当大的能力,但它们在面对需要多样化专业知识或复杂问题分解的任务时本质上面临限制。多代理系统(MAS)作为一种自然解决方案出现,利用多个代理的集体智能来应对这些挑战。
如论文中的图6(此处添加论文中的图6)所示,研究团队沿着两个轴分析了多代理推理框架:组织架构和个体交互。组织架构包括集中式、分布式和分层形式,决定了系统的结构主干;而个体交互涉及合作、竞争和协商,管理代理在追求目标时的动态。
为了正式讨论这些范式,论文将多代理系统表示为一组代理 ,其中 表示代理 的专门角色。虽然每个代理都遵循算法1中概述的一般推理循环,但其行为由其独特的角色、目标 、可用行动 和工具 个性化。它们还维护不同的个体上下文 。正是每个代理上下文和角色的差异性驱动了它们推理的异质性,最终塑造了系统的集体输出。
3.1 组织架构
组织架构定义了协调和控制的宏观层面结构,通常通过为每个代理的初始上下文 分配特定角色 来实现:
从算法1中的第5行扩展,无论在什么组织下,每个代理的上下文更新都必须考虑所有其他代理的输出,以及它们先前的上下文 ,这可以形式化为:
其中
论文进一步将多代理系统的组织分解为三种不同的范式:集中式、分布式和分层式。
集中式:在集中式架构中,设置一个中央代理 来管理和协调其他代理 (其中 )的推理活动。这个中央代理通常执行全局规划、任务分解和结果合成,要求它处理来自所有其他代理的输出,如公式12所示。然而,下属代理可能只需要考虑来自管理者的指令,简化了它们的上下文更新。这种架构确保了高度的协调和全局优化,但它在中央节点引入了潜在的性能瓶颈和单点故障。
分布式:在分布式架构中,没有中央权威。每个代理拥有平等的地位,并基于本地信息和直接的对等通信做出决策。因此,每个代理的上下文更新通常遵循公式12中的通用形式,其中每个代理必须处理其邻居的输出,或者在完全连接的系统中的所有其他代理的输出。这种类似讨论的过程促进了新兴协作,并增强了系统的鲁棒性和容错性,因为一个代理的失败不会使整个系统瘫痪。然而,它可能会降低资源利用的整体效率。
分层式:分层架构结合了集中式和分布式架构的特点,形成多级控制结构。在这种结构中,代理被组织成层次结构,高级代理监督和协调低级代理的活动,同时低级代理在各自的责任范围内保持一定程度的自主性。这种架构特别适合具有明确层次结构的任务,如企业管理或复杂项目管理。
除了组织架构外,多代理系统中的个体交互方式也对其性能产生重要影响。论文将个体交互分为三种主要类型:合作、竞争和协商。
合作:在合作交互中,代理共同努力实现共同目标。代理共享信息、资源和专业知识,以增强系统的整体性能。合作交互特别适合需要集体智慧或分布式专业知识的任务,如科学研究或复杂问题解决。
竞争:在竞争交互中,代理追求相互冲突的目标,试图在有限的资源或环境中胜过对方。竞争交互可以激发创新和效率提升,特别适合需要优化或资源分配的任务,如市场模拟或游戏理论场景。
协商:协商交互介于合作和竞争之间,代理通过谈判和妥协来达成互利解决方案。协商交互特别适合需要平衡多方利益的任务,如资源分配、冲突解决或决策制定。
论文不仅系统梳理了代理推理框架的方法学,还深入分析了这些框架在几个关键应用场景中的应用。这些场景包括科学发现、医疗保健、软件工程、社会模拟和经济学。
1. 科学发现
在科学发现领域,代理推理框架被用于加速研究过程、生成假设、分析实验数据甚至设计实验。论文详细分析了代理如何通过多步推理和工具使用来处理复杂的科学问题,如材料科学中的新材料发现、生物学中的蛋白质结构预测等。
2. 医疗保健
在医疗保健领域,代理推理框架被用于疾病诊断、治疗方案推荐、药物发现和医疗数据分析。论文讨论了代理如何整合多源医疗数据、应用医学知识并进行推理,以提供准确的医疗建议和支持临床决策。
3. 软件工程
在软件工程领域,代理推理框架被用于代码生成、调试、测试和软件维护。论文分析了代理如何理解软件需求、生成代码、检测和修复错误,以及优化软件性能。
4. 社会模拟
在社会模拟领域,代理推理框架被用于模拟人类行为、社会动态和群体决策。论文探讨了代理如何模拟个体和群体的行为模式,以及如何预测社会现象和趋势。
5. 经济学
在经济学领域,代理推理框架被用于市场分析、经济预测和政策评估。论文讨论了代理如何模拟市场行为、分析经济数据并预测经济趋势。
评估策略
为了全面评估不同代理推理框架的性能,论文总结了多种评估策略。这些策略包括:
任务完成度评估:衡量代理完成特定任务的能力和效果。
推理质量评估:评估代理推理过程的逻辑性、一致性和准确性。
效率评估:衡量代理完成任务所需的资源和时间。
鲁棒性评估:测试代理在面对不确定性和变化时的适应能力。
可解释性评估:评估代理决策过程的透明度和可理解性。
论文还讨论了不同应用场景下的评估数据集和基准测试,为研究人员提供了评估代理推理框架的全面指导。
未来方向与结论
在论文的最后部分,研究团队讨论了代理推理框架的未来发展方向,包括:
更强大的推理能力:开发 能够进行更复杂、更抽象推理的代理。
更好的工具集成:改进代理与外部工具的集成方式,扩展代理的能力范围。
更高效的多代理协作:优化多代理系统中的协作机制,提高集体智能的效率。
更安全的代理行为:确保代理行为的安全性、可靠性和道德性。
更广泛的应用场景:将代理推理框架应用于更多领域和场景。
阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”
https://wx.zsxq.com/group/454854145828
未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。
热门跟贴