华南理工大学研究团队提出全新多智能体框架|华南理工大学|多智能体|拓扑|算法

这项由华南理工大学计算机科学与工程学院领导的研究，于2026年5月以预印本形式发布在arXiv平台，论文编号为arXiv:2605.00691v1，研究方向归属于多智能体系统领域（cs.MA）。有兴趣深入了解的读者可以通过该编号在arXiv查询完整论文。

**一道难题：许多"小侦探"共同破案，却只能看到自己那片区域**

假设你是一个侦探团队的成员，这个团队有二十个侦探，分别驻守城市的不同角落。你们共同的任务是找到一个隐藏在城市某处的重要线索——但每个侦探只能看到自己那片区域，无法看到其他侦探的地盘，也无法知道全城的整体情况。你们之间唯一的沟通方式，是偶尔和相邻街区的同事传递简短的消息。在这种情况下，怎样才能让整个团队最终"达成共识"，找到最好的答案？

这个侦探团队的故事，正是现代分布式系统中一个真实存在的技术难题的缩影。在无线传感网络、自动驾驶车队、工厂机器人群组等场景里，许多"智能体"（可以理解为独立运作的AI小单元）需要共同优化一个全局目标，但每个智能体只能访问自己的局部信息，只能和邻居交流，完全无法看到全局。这类问题在学术上被称为"分布式黑盒共识优化"——"黑盒"意味着连目标函数长什么样都不知道，只能靠反复试错来感知好坏；"共识"则意味着所有智能体最终必须在同一个答案上达成一致。

过去的方法大多依赖人工设计的固定规则——就像给每个侦探发一本死板的操作手册，规定他们在什么情况下怎么行动，和哪个同事分享多少信息。这类手册的问题在于：真实的破案现场千变万化，固定规则往往顾此失彼，要么侦探们各自为战、迟迟无法统一意见，要么过于保守、错过了关键线索。

华南理工大学的研究团队针对这一痛点，提出了一个名为 **LAC-MAS**（Learning to Act and Cooperate for Multi-Agent Systems，学会行动与合作的多智能体系统）的全新框架。这套框架的核心思想是：不再给侦探们发固定手册，而是让他们能够根据自己的历史经验，动态调整自己的侦查策略和与同事合作的方式。更妙的是，框架中引入了大语言模型（可以理解为一位经验丰富的"顾问"），偶尔帮侦探们回顾历史记录、提出策略建议——但这位顾问不会直接替侦探做决定，只是给出高层次的指引。

**一、侦探团队面对的三重困境**

理解这项研究的价值，需要先弄清楚分布式黑盒优化到底难在哪里。

难点之一，是信息的极度不完整。每个智能体既看不到全局目标，也无法访问其他智能体的状态，只能通过函数查询感知自己局部区域的"好坏"。这就像每个侦探只能在自己的街区找线索，永远不知道城市另一头发生了什么。

难点之二，是探索与收敛之间的矛盾。每个智能体需要在"广泛探索未知区域"和"向当前最好位置靠拢"之间保持平衡。探索太多，会浪费大量资源；收敛太快，则容易陷入局部最优——就像侦探过早断定"凶手就是邻居大叔"，反而错过了真正的线索。

难点之三，是共识的达成需要有效协作。即便每个智能体局部表现很好，如果大家无法最终统一到同一个答案，整个系统的目标就无法实现。而协作的质量取决于智能体如何利用邻居的信息——盲目地把所有邻居的信息平均对待，往往不如有所侧重、优先参考那些表现更好的邻居。

现有的经典方法，比如EXTRA、ADMM，依赖明确的梯度信息，对黑盒场景无能为力。强化学习方法虽然灵活，但在多智能体场景中训练不稳定、可扩展性差。粒子群算法等启发式方法更接地气，但依赖人工设计的更新规则，缺乏自适应能力。LAC-MAS的出现，正是为了在这三重困境中找到一条更好的出路。

**二、粒子群：每位侦探手下的"搜查小队"**

在正式介绍LAC-MAS的核心机制之前，需要理解它的底层执行单元——粒子群优化器。

每个智能体并不是一个单独的侦探，而是带领着一支由若干"搜查员"（粒子）组成的小队。每个搜查员在解空间中占据一个位置，代表一个候选解，并且根据一定的速度在空间中移动。小队集体探索解空间，通过不断尝试不同位置来感知目标函数的好坏。

研究团队对传统粒子群优化做了一项关键改进：引入了基于"粒子分散程度"的自适应内部机制。可以这样理解：如果搜查小队的成员们四散分布、相距很远（高分散），说明整个小队还处于广泛探索阶段；如果成员们聚集在一起（低分散），说明大家已经开始向某个区域收敛。

基于这个判断，智能体会自动选择不同的行为系数。当分散程度高时，用一个对应"探索模式"的系数来驱动搜查员大胆游走；当分散程度低时，换成"收敛模式"的系数让大家稳定地向好位置靠拢；而居于两者之间的中等分散状态，则对应一个平衡系数。每个智能体维护着三个系数构成的小集合，在运行过程中动态选择当前应该激活哪一个。

这个机制的数学表达相当直接：研究团队定义了粒子质心（所有搜查员位置的平均值）和粒子散度（所有搜查员到质心距离的平均平方），然后根据散度是否超过两个阈值来决定使用哪个系数。选定的系数作为一个缩放因子，乘以搜查员的速度更新量，控制整体移动幅度的大小。

这已经是比传统固定参数粒子群好得多的设计——但如果这三个系数本身是人工固定设置的，整个机制依然是"规则驱动"的。LAC-MAS的妙处在于，它更进一步：让大语言模型根据历史优化轨迹来动态推断这三个系数应该是多少，让"行为策略"本身也能从经验中学习。

**三、给每位侦探配一位"顾问"：大语言模型的角色**

在LAC-MAS中，每个智能体都配备了一个大语言模型作为高层次指导模块。这位"顾问"的工作方式与直觉中的AI截然不同——它并不直接控制搜查员的移动，不输出具体的坐标或数值，而是扮演一个策略顾问的角色：根据近期的优化历史，给出两类建议。

第一类建议是"学会行动"，即调整智能体的内部行为策略。顾问会查看智能体最近若干轮的适应度值（目标函数值，越低越好）和共识差异度（所有智能体之间的分歧大小），结合一套规则——如果适应度停滞不前而共识差异已经很小，说明大家锁定到了某个局部区域，应该加大探索力度；如果适应度在缓慢改善但共识差异还很大，说明各智能体还比较分散，应该加强向中心靠拢的力度——从而推断出合适的参数值，更新那三个行为系数。

这个过程的本质，是将"历史轨迹"转化为"参数调整建议"。大语言模型通过自然语言提示词接收结构化的轨迹数据，输出更新后的参数值，然后由系统进行合理性检查（确保值在设定范围内）并投入使用。

第二类建议是"学会合作"，即调整智能体在共识融合阶段如何对待邻居的信息。在分布式系统中，每个智能体最终需要将自己的状态和邻居的状态加权平均，以推动全局共识的形成。传统做法是对所有邻居一视同仁，赋予均等权重。但有些邻居可能优化做得很好、分散程度低、进展稳定，参考价值更高；另一些邻居可能正陷于局部困境，过度参考反而会拖累自己。

为了解决这个问题，每个智能体会构建一个"邻居描述符"，对每位邻居的近期表现进行总结，包含三项指标：近期平均适应度、近期平均粒子散度、近期平均状态变化幅度。这三项指标分别反映邻居的解质量、探索状态和搜索活跃程度。大语言模型根据这些描述符，为每位邻居打分，输出一组候选权重；系统对这组权重进行归一化处理，确保权重非负且总和为1，然后用于加权共识更新。

值得强调的是，整个合作机制并不改变智能体之间的通信拓扑——谁和谁相连还是固定不变的，改变的只是现有连接的"信息权重"。就像侦探团队的编制没变，但每个侦探学会了更多地参考那些线索质量更高的同事，而不是平等对待所有人的汇报。

**四、顾问何时出手：分阶段认知调度的精妙设计**

如果顾问每一轮都来打扰，既浪费计算资源，也会导致策略频繁抖动、难以稳定。而且，"学会行动"和"学会合作"这两类指导在不同阶段发挥的作用不同：前者主要在优化早期和中期、搜索模式发生大转变的时候才需要更新；后者则需要随着邻居相对表现的变化而持续调整。

研究团队为此设计了一套"分阶段认知调度"机制（Phased Cognitive Guidance，PCG），相当于为整个优化过程规划了一个时间表，规定顾问在什么时候提供什么类型的建议。

整个过程被划分为四个自然浮现的阶段。第一阶段是轨迹积累期，所有侦探先按照基础策略自由行动，积累足够的历史数据，为后续的学习打好基础，顾问此时保持沉默。第二阶段是行动学习期，顾问开始介入，根据积累的轨迹为各智能体调整内部行为系数，优化各自的搜索模式，但合作权重暂时不动。第三阶段是行动与合作联合优化期，两类指导同时激活，智能体既调整内部搜索策略，也重新评估与邻居的合作关系，这是整个系统最动态的阶段。第四阶段是共识导向的稳定期，内部行为调整被关闭，只保留合作权重的持续更新，让系统在稳健的协作基础上平稳地推进共识收敛，避免晚期因内部扰动过大而破坏稳定性。

为了确定这四个阶段的时间节点，研究团队采用了一种"预实验标定"的方法：在正式运行前先做一个轻量级的预热实验，估算出一个特征优化时长T作为时间参考基准，然后用若干比例参数来划定各阶段的边界。这个T不需要精确预测收敛时间，只要数量级大致合理即可。

合作权重的刷新时间点被设计为均匀间隔分布（例如每隔一定比例的T就刷新一次），而行动指导的刷新则只在两个关键时刻触发（大约在T的某两个比例点上），一旦超过T就完全停止行动指导的更新。这种"外频内稀"的非对称设计，精准地匹配了两类指导的不同功能需求。

**五、理论保障：这套机制真的能收敛吗？**

对于优化算法来说，能不能最终让所有智能体达成共识，是一个必须回答的理论问题。研究团队对LAC-MAS的共识保证进行了严格的数学分析。

整个分析的核心思路是：把LAC-MAS的协作更新写成一个矩阵迭代的形式——下一时刻的系统状态等于当前时刻的状态乘以一个混合矩阵，再加上一个扰动项。如果这个混合矩阵满足"行随机矩阵"的条件（每行元素非负且求和为1，且与通信图结构相容），并且扰动项随时间趋近于零，那么经典的共识理论就能保证系统最终收敛。

研究团队逐一验证了LAC-MAS满足这些条件。关于混合矩阵的条件：由于合作权重在执行前都经过了归一化处理，加上大语言模型只在现有通信链路内分配权重，混合矩阵始终是行随机且与连通图相容的。关于内部扰动的有界性：行为系数来自一个有限的集合，因此有界；在分阶段调度下，行为指导的刷新次数有限，不会产生持续的高频切换。关于扰动项的渐近消失：在最终阶段行为调整停止后，系统进入稳定的执行状态，局部搜索引入的扰动会随着粒子群自然收敛而趋近于零。

基于这三点，整个系统构成了一个在连通图上运行的"行随机切换共识系统，带有渐近消失的扰动"，标准的共识定理可以直接应用，从而保证了所有智能体的状态差异最终趋近于零。

**六、实验验证：侦探团队在标准考场和真实案件中的表现**

理论再完美，也需要实验来检验。研究团队在两类场景下对LAC-MAS进行了全面评估。

标准基准测试方面，研究团队使用了10个经典的分布式黑盒优化测试函数（F1至F10），这些函数覆盖了从简单的单峰景观到复杂的多峰、异构、非可分函数等多种难度类型，全部以100维决策变量、20个智能体的规模运行，严格遵守"每个智能体只能查询自己的局部目标，全局目标在优化过程中不可见"的协议。每种算法独立运行25次，用Friedman检验和Nemenyi事后检验进行统计显著性分析。

参与对比的方法包括：MASOIE（与LAC-MAS最相近的先进基线，也是"首席竞争对手"）、GFPDO（采用显式共识机制但通信开销较大的方法）、RGF（随机梯度无关方法）和DA-PSO（分布式粒子群算法）。

实验结果显示，LAC-MAS在大多数测试函数上都能取得比MASOIE更低的最终适应度值。在那些需要灵活调节探索与收敛节奏的函数（如F1、F5、F8、F10）上，LAC-MAS对MASOIE的优势尤为明显，统计显著性达到了α=0.01的水平。在少数具有特殊景观结构的函数（如F3、F6）上，LAC-MAS和MASOIE的差异不显著，但两者都大幅领先其他基线方法，说明LAC-MAS在这类函数上至少保持了最优水平而没有退步。

对GFPDO、RGF、DA-PSO这三种更早期的基线，LAC-MAS几乎在所有10个函数上都取得了统计显著的优势，差距往往在数量级以上。

消融实验方面，研究团队设计了四种变体来拆解LAC-MAS的各个组件贡献。单独启用行动学习（LAC-MAS-Act）但保留固定合作权重，或单独启用合作学习（LAC-MAS-Coop）但保留固定行为系数，都能比纯粹的MASOIE基线有所改善，但两者各有侧重。LAC-MAS-Act变体在最终解的质量上提升明显，但代价是通信成本略微增加，因为更活跃的探索行为会延缓共识的形成；LAC-MAS-Coop变体则在降低通信成本和加速共识达成上表现突出，但最终解的质量提升有限。完整的LAC-MAS综合了两者的优点，在解的质量、共识速度和通信效率上都达到了最好或接近最好的平衡。

真实应用场景方面，研究团队将LAC-MAS迁移到了无线传感网络（WSN）中的多目标定位任务上。这个任务的设定是：已知位置的若干传感器，需要联合估计多个位置未知的目标的三维坐标，每个传感器只能观测到自己收到的信号强度，通信有限。全局目标函数是所有传感器的定位误差之和，但任何单个传感器都无法访问这个全局值。这个场景对LAC-MAS来说是一次真正的"迁移测试"，因为研究团队并没有针对WSN任务做任何专门的重新设计或参数调优。

实验结果令人印象深刻：在目标数量从10个增加到50个的全过程中，LAC-MAS始终保持了远低于其他方法的估计误差。当目标数量为10时，LAC-MAS的估计误差约为0.07，而MASOIE约为0.24，GFPDO为3.61，RGF为17.92，DA-PSO则高达60.49。随着目标数量增加，所有方法的误差都有所上升，但LAC-MAS的增长幅度最小、保持的优势也最稳定。这说明LAC-MAS所学到的行动与合作策略具有良好的泛化能力，能够在新的分布式黑盒任务场景中保持有效。

**七、顾问是怎么"说话"的：提示词设计揭秘**

了解大语言模型如何在LAC-MAS中工作，需要看一看它接收的"提示词"长什么样。

对于行动学习，提示词的结构非常简洁：告知当前是第几轮迭代、当前的参数值是多少，然后列出过去19轮的适应度和共识差异记录，最后给出两条更新规则（适应度停滞时加大某参数、共识差异高时加大另一参数），并要求模型只输出更新后的参数对，不作任何额外解释。参数的取值范围也在提示词中明确给出，约束了模型的输出空间。

对于合作学习，提示词会告知邻居数量，然后提供最近10轮每个邻居的平均适应度和平均共识差异，给出权重调整的直觉规则（适应度低且共识差异小的邻居权重应更高，反之降低），并要求输出一个所有权重构成的向量，自然满足系统的归一化需求。

这两套提示词的共同特点是：完全基于局部和邻居的历史信息，不包含任何全局状态；格式固定、指令明确，减少了模型输出的不确定性；约束了输出范围，为后续的合理性检查提供了基础。

实验中使用的是DeepSeek-R1:14B这个14亿参数规模的大语言模型，通过Ollama运行时在本地部署，不依赖任何外部API或云服务，符合分布式系统"每个节点独立运行"的设计原则。

说到底，LAC-MAS做的事情可以用一句话概括：在分布式黑盒优化这个"侦探团队破案"的问题上，不再给侦探发死板的操作手册，而是让他们能够根据自己的历史经验不断调整策略，同时通过一位偶尔出现的智慧顾问，帮助他们更好地发现哪些同事的情报更有价值、自己当前应该更多探索还是更多收敛。这种自适应的双层结构——底层的粒子群执行加上顶层的轨迹驱动指导——让整个系统在面对各种不同类型的优化问题时都能保持稳健的表现，而不会像固定规则方法那样在某些场景下明显失灵。

这项研究也指出了自身的局限性和未来方向。目前的框架仍是一个"初步探索"，通信拓扑是固定的，大语言模型的推理成本也是一个实际部署时需要考量的因素。未来的工作可能会探索更动态的拓扑适应、更轻量级的指导机制，以及如何将这套框架扩展到规模更大、异构程度更高的系统中。对于这一领域感兴趣的读者，可以通过arXiv编号2605.00691查阅完整论文，深入了解所有技术细节和实验数据。

Q&A

Q1：LAC-MAS和普通的粒子群优化算法有什么本质区别？

A：普通粒子群优化的参数是人工固定设置的，整个搜索过程中一成不变。LAC-MAS在此基础上做了两层改进：一是根据粒子群当前的分散程度动态选择不同的行为系数；二是利用大语言模型分析历史优化轨迹，定期更新这些行为系数本身以及智能体之间的合作权重。换句话说，普通粒子群是按固定食谱做菜，LAC-MAS是边做边根据口味反馈调整食谱。

Q2：LAC-MAS中大语言模型每轮都要运行吗，计算成本高不高？

A：不是每轮都运行，这正是分阶段认知调度机制的价值所在。大语言模型只在特定的时间节点被触发，行动指导只更新两次就停止，合作权重的更新也是按固定间隔稀疏发生的。底层的粒子群优化器则在所有轮次连续运行，两者解耦，保证了整体计算效率。

Q3：分布式黑盒共识优化在现实中有哪些具体应用？

A：这类技术在多个实际场景中有直接应用价值。无线传感网络中的多目标定位（论文中已验证）是其中一个典型例子。此外，无人机群编队控制、工厂多机器人协同调度、分布式能源网络的功率优化等，都属于类似的问题结构——多个局部智能节点需要在有限通信下联合优化一个全局目标，且目标函数难以显式表达或计算梯度。