打开网易新闻 查看精彩图片

这项由华南理工大学计算机科学与工程学院领导的研究,于2026年5月以预印本形式发布在arXiv平台,论文编号为arXiv:2605.00691v1,研究方向归属于多智能体系统领域(cs.MA)。有兴趣深入了解的读者可以通过该编号在arXiv查询完整论文。

**一道难题:许多"小侦探"共同破案,却只能看到自己那片区域**

假设你是一个侦探团队的成员,这个团队有二十个侦探,分别驻守城市的不同角落。你们共同的任务是找到一个隐藏在城市某处的重要线索——但每个侦探只能看到自己那片区域,无法看到其他侦探的地盘,也无法知道全城的整体情况。你们之间唯一的沟通方式,是偶尔和相邻街区的同事传递简短的消息。在这种情况下,怎样才能让整个团队最终"达成共识",找到最好的答案?

这个侦探团队的故事,正是现代分布式系统中一个真实存在的技术难题的缩影。在无线传感网络、自动驾驶车队、工厂机器人群组等场景里,许多"智能体"(可以理解为独立运作的AI小单元)需要共同优化一个全局目标,但每个智能体只能访问自己的局部信息,只能和邻居交流,完全无法看到全局。这类问题在学术上被称为"分布式黑盒共识优化"——"黑盒"意味着连目标函数长什么样都不知道,只能靠反复试错来感知好坏;"共识"则意味着所有智能体最终必须在同一个答案上达成一致。

过去的方法大多依赖人工设计的固定规则——就像给每个侦探发一本死板的操作手册,规定他们在什么情况下怎么行动,和哪个同事分享多少信息。这类手册的问题在于:真实的破案现场千变万化,固定规则往往顾此失彼,要么侦探们各自为战、迟迟无法统一意见,要么过于保守、错过了关键线索。

华南理工大学的研究团队针对这一痛点,提出了一个名为 **LAC-MAS**(Learning to Act and Cooperate for Multi-Agent Systems,学会行动与合作的多智能体系统)的全新框架。这套框架的核心思想是:不再给侦探们发固定手册,而是让他们能够根据自己的历史经验,动态调整自己的侦查策略和与同事合作的方式。更妙的是,框架中引入了大语言模型(可以理解为一位经验丰富的"顾问"),偶尔帮侦探们回顾历史记录、提出策略建议——但这位顾问不会直接替侦探做决定,只是给出高层次的指引。

**一、侦探团队面对的三重困境**

理解这项研究的价值,需要先弄清楚分布式黑盒优化到底难在哪里。

难点之一,是信息的极度不完整。每个智能体既看不到全局目标,也无法访问其他智能体的状态,只能通过函数查询感知自己局部区域的"好坏"。这就像每个侦探只能在自己的街区找线索,永远不知道城市另一头发生了什么。

难点之二,是探索与收敛之间的矛盾。每个智能体需要在"广泛探索未知区域"和"向当前最好位置靠拢"之间保持平衡。探索太多,会浪费大量资源;收敛太快,则容易陷入局部最优——就像侦探过早断定"凶手就是邻居大叔",反而错过了真正的线索。

难点之三,是共识的达成需要有效协作。即便每个智能体局部表现很好,如果大家无法最终统一到同一个答案,整个系统的目标就无法实现。而协作的质量取决于智能体如何利用邻居的信息——盲目地把所有邻居的信息平均对待,往往不如有所侧重、优先参考那些表现更好的邻居。

现有的经典方法,比如EXTRA、ADMM,依赖明确的梯度信息,对黑盒场景无能为力。强化学习方法虽然灵活,但在多智能体场景中训练不稳定、可扩展性差。粒子群算法等启发式方法更接地气,但依赖人工设计的更新规则,缺乏自适应能力。LAC-MAS的出现,正是为了在这三重困境中找到一条更好的出路。

**二、粒子群:每位侦探手下的"搜查小队"**

在正式介绍LAC-MAS的核心机制之前,需要理解它的底层执行单元——粒子群优化器。

每个智能体并不是一个单独的侦探,而是带领着一支由若干"搜查员"(粒子)组成的小队。每个搜查员在解空间中占据一个位置,代表一个候选解,并且根据一定的速度在空间中移动。小队集体探索解空间,通过不断尝试不同位置来感知目标函数的好坏。

研究团队对传统粒子群优化做了一项关键改进:引入了基于"粒子分散程度"的自适应内部机制。可以这样理解:如果搜查小队的成员们四散分布、相距很远(高分散),说明整个小队还处于广泛探索阶段;如果成员们聚集在一起(低分散),说明大家已经开始向某个区域收敛。

基于这个判断,智能体会自动选择不同的行为系数。当分散程度高时,用一个对应"探索模式"的系数来驱动搜查员大胆游走;当分散程度低时,换成"收敛模式"的系数让大家稳定地向好位置靠拢;而居于两者之间的中等分散状态,则对应一个平衡系数。每个智能体维护着三个系数构成的小集合,在运行过程中动态选择当前应该激活哪一个。

这个机制的数学表达相当直接:研究团队定义了粒子质心(所有搜查员位置的平均值)和粒子散度(所有搜查员到质心距离的平均平方),然后根据散度是否超过两个阈值来决定使用哪个系数。选定的系数作为一个缩放因子,乘以搜查员的速度更新量,控制整体移动幅度的大小。

这已经是比传统固定参数粒子群好得多的设计——但如果这三个系数本身是人工固定设置的,整个机制依然是"规则驱动"的。LAC-MAS的妙处在于,它更进一步:让大语言模型根据历史优化轨迹来动态推断这三个系数应该是多少,让"行为策略"本身也能从经验中学习。

**三、给每位侦探配一位"顾问":大语言模型的角色**

在LAC-MAS中,每个智能体都配备了一个大语言模型作为高层次指导模块。这位"顾问"的工作方式与直觉中的AI截然不同——它并不直接控制搜查员的移动,不输出具体的坐标或数值,而是扮演一个策略顾问的角色:根据近期的优化历史,给出两类建议。

第一类建议是"学会行动",即调整智能体的内部行为策略。顾问会查看智能体最近若干轮的适应度值(目标函数值,越低越好)和共识差异度(所有智能体之间的分歧大小),结合一套规则——如果适应度停滞不前而共识差异已经很小,说明大家锁定到了某个局部区域,应该加大探索力度;如果适应度在缓慢改善但共识差异还很大,说明各智能体还比较分散,应该加强向中心靠拢的力度——从而推断出合适的参数值,更新那三个行为系数。

这个过程的本质,是将"历史轨迹"转化为"参数调整建议"。大语言模型通过自然语言提示词接收结构化的轨迹数据,输出更新后的参数值,然后由系统进行合理性检查(确保值在设定范围内)并投入使用。

第二类建议是"学会合作",即调整智能体在共识融合阶段如何对待邻居的信息。在分布式系统中,每个智能体最终需要将自己的状态和邻居的状态加权平均,以推动全局共识的形成。传统做法是对所有邻居一视同仁,赋予均等权重。但有些邻居可能优化做得很好、分散程度低、进展稳定,参考价值更高;另一些邻居可能正陷于局部困境,过度参考反而会拖累自己。

为了解决这个问题,每个智能体会构建一个"邻居描述符",对每位邻居的近期表现进行总结,包含三项指标:近期平均适应度、近期平均粒子散度、近期平均状态变化幅度。这三项指标分别反映邻居的解质量、探索状态和搜索活跃程度。大语言模型根据这些描述符,为每位邻居打分,输出一组候选权重;系统对这组权重进行归一化处理,确保权重非负且总和为1,然后用于加权共识更新。

值得强调的是,整个合作机制并不改变智能体之间的通信拓扑——谁和谁相连还是固定不变的,改变的只是现有连接的"信息权重"。就像侦探团队的编制没变,但每个侦探学会了更多地参考那些线索质量更高的同事,而不是平等对待所有人的汇报。

**四、顾问何时出手:分阶段认知调度的精妙设计**

如果顾问每一轮都来打扰,既浪费计算资源,也会导致策略频繁抖动、难以稳定。而且,"学会行动"和"学会合作"这两类指导在不同阶段发挥的作用不同:前者主要在优化早期和中期、搜索模式发生大转变的时候才需要更新;后者则需要随着邻居相对表现的变化而持续调整。

研究团队为此设计了一套"分阶段认知调度"机制(Phased Cognitive Guidance,PCG),相当于为整个优化过程规划了一个时间表,规定顾问在什么时候提供什么类型的建议。

整个过程被划分为四个自然浮现的阶段。第一阶段是轨迹积累期,所有侦探先按照基础策略自由行动,积累足够的历史数据,为后续的学习打好基础,顾问此时保持沉默。第二阶段是行动学习期,顾问开始介入,根据积累的轨迹为各智能体调整内部行为系数,优化各自的搜索模式,但合作权重暂时不动。第三阶段是行动与合作联合优化期,两类指导同时激活,智能体既调整内部搜索策略,也重新评估与邻居的合作关系,这是整个系统最动态的阶段。第四阶段是共识导向的稳定期,内部行为调整被关闭,只保留合作权重的持续更新,让系统在稳健的协作基础上平稳地推进共识收敛,避免晚期因内部扰动过大而破坏稳定性。

为了确定这四个阶段的时间节点,研究团队采用了一种"预实验标定"的方法:在正式运行前先做一个轻量级的预热实验,估算出一个特征优化时长T作为时间参考基准,然后用若干比例参数来划定各阶段的边界。这个T不需要精确预测收敛时间,只要数量级大致合理即可。

合作权重的刷新时间点被设计为均匀间隔分布(例如每隔一定比例的T就刷新一次),而行动指导的刷新则只在两个关键时刻触发(大约在T的某两个比例点上),一旦超过T就完全停止行动指导的更新。这种"外频内稀"的非对称设计,精准地匹配了两类指导的不同功能需求。

**五、理论保障:这套机制真的能收敛吗?**

对于优化算法来说,能不能最终让所有智能体达成共识,是一个必须回答的理论问题。研究团队对LAC-MAS的共识保证进行了严格的数学分析。

整个分析的核心思路是:把LAC-MAS的协作更新写成一个矩阵迭代的形式——下一时刻的系统状态等于当前时刻的状态乘以一个混合矩阵,再加上一个扰动项。如果这个混合矩阵满足"行随机矩阵"的条件(每行元素非负且求和为1,且与通信图结构相容),并且扰动项随时间趋近于零,那么经典的共识理论就能保证系统最终收敛。

研究团队逐一验证了LAC-MAS满足这些条件。关于混合矩阵的条件:由于合作权重在执行前都经过了归一化处理,加上大语言模型只在现有通信链路内分配权重,混合矩阵始终是行随机且与连通图相容的。关于内部扰动的有界性:行为系数来自一个有限的集合,因此有界;在分阶段调度下,行为指导的刷新次数有限,不会产生持续的高频切换。关于扰动项的渐近消失:在最终阶段行为调整停止后,系统进入稳定的执行状态,局部搜索引入的扰动会随着粒子群自然收敛而趋近于零。

基于这三点,整个系统构成了一个在连通图上运行的"行随机切换共识系统,带有渐近消失的扰动",标准的共识定理可以直接应用,从而保证了所有智能体的状态差异最终趋近于零。

**六、实验验证:侦探团队在标准考场和真实案件中的表现**

理论再完美,也需要实验来检验。研究团队在两类场景下对LAC-MAS进行了全面评估。

标准基准测试方面,研究团队使用了10个经典的分布式黑盒优化测试函数(F1至F10),这些函数覆盖了从简单的单峰景观到复杂的多峰、异构、非可分函数等多种难度类型,全部以100维决策变量、20个智能体的规模运行,严格遵守"每个智能体只能查询自己的局部目标,全局目标在优化过程中不可见"的协议。每种算法独立运行25次,用Friedman检验和Nemenyi事后检验进行统计显著性分析。

参与对比的方法包括:MASOIE(与LAC-MAS最相近的先进基线,也是"首席竞争对手")、GFPDO(采用显式共识机制但通信开销较大的方法)、RGF(随机梯度无关方法)和DA-PSO(分布式粒子群算法)。

实验结果显示,LAC-MAS在大多数测试函数上都能取得比MASOIE更低的最终适应度值。在那些需要灵活调节探索与收敛节奏的函数(如F1、F5、F8、F10)上,LAC-MAS对MASOIE的优势尤为明显,统计显著性达到了α=0.01的水平。在少数具有特殊景观结构的函数(如F3、F6)上,LAC-MAS和MASOIE的差异不显著,但两者都大幅领先其他基线方法,说明LAC-MAS在这类函数上至少保持了最优水平而没有退步。

对GFPDO、RGF、DA-PSO这三种更早期的基线,LAC-MAS几乎在所有10个函数上都取得了统计显著的优势,差距往往在数量级以上。

消融实验方面,研究团队设计了四种变体来拆解LAC-MAS的各个组件贡献。单独启用行动学习(LAC-MAS-Act)但保留固定合作权重,或单独启用合作学习(LAC-MAS-Coop)但保留固定行为系数,都能比纯粹的MASOIE基线有所改善,但两者各有侧重。LAC-MAS-Act变体在最终解的质量上提升明显,但代价是通信成本略微增加,因为更活跃的探索行为会延缓共识的形成;LAC-MAS-Coop变体则在降低通信成本和加速共识达成上表现突出,但最终解的质量提升有限。完整的LAC-MAS综合了两者的优点,在解的质量、共识速度和通信效率上都达到了最好或接近最好的平衡。

真实应用场景方面,研究团队将LAC-MAS迁移到了无线传感网络(WSN)中的多目标定位任务上。这个任务的设定是:已知位置的若干传感器,需要联合估计多个位置未知的目标的三维坐标,每个传感器只能观测到自己收到的信号强度,通信有限。全局目标函数是所有传感器的定位误差之和,但任何单个传感器都无法访问这个全局值。这个场景对LAC-MAS来说是一次真正的"迁移测试",因为研究团队并没有针对WSN任务做任何专门的重新设计或参数调优。

实验结果令人印象深刻:在目标数量从10个增加到50个的全过程中,LAC-MAS始终保持了远低于其他方法的估计误差。当目标数量为10时,LAC-MAS的估计误差约为0.07,而MASOIE约为0.24,GFPDO为3.61,RGF为17.92,DA-PSO则高达60.49。随着目标数量增加,所有方法的误差都有所上升,但LAC-MAS的增长幅度最小、保持的优势也最稳定。这说明LAC-MAS所学到的行动与合作策略具有良好的泛化能力,能够在新的分布式黑盒任务场景中保持有效。

**七、顾问是怎么"说话"的:提示词设计揭秘**

了解大语言模型如何在LAC-MAS中工作,需要看一看它接收的"提示词"长什么样。

对于行动学习,提示词的结构非常简洁:告知当前是第几轮迭代、当前的参数值是多少,然后列出过去19轮的适应度和共识差异记录,最后给出两条更新规则(适应度停滞时加大某参数、共识差异高时加大另一参数),并要求模型只输出更新后的参数对,不作任何额外解释。参数的取值范围也在提示词中明确给出,约束了模型的输出空间。

对于合作学习,提示词会告知邻居数量,然后提供最近10轮每个邻居的平均适应度和平均共识差异,给出权重调整的直觉规则(适应度低且共识差异小的邻居权重应更高,反之降低),并要求输出一个所有权重构成的向量,自然满足系统的归一化需求。

这两套提示词的共同特点是:完全基于局部和邻居的历史信息,不包含任何全局状态;格式固定、指令明确,减少了模型输出的不确定性;约束了输出范围,为后续的合理性检查提供了基础。

实验中使用的是DeepSeek-R1:14B这个14亿参数规模的大语言模型,通过Ollama运行时在本地部署,不依赖任何外部API或云服务,符合分布式系统"每个节点独立运行"的设计原则。

说到底,LAC-MAS做的事情可以用一句话概括:在分布式黑盒优化这个"侦探团队破案"的问题上,不再给侦探发死板的操作手册,而是让他们能够根据自己的历史经验不断调整策略,同时通过一位偶尔出现的智慧顾问,帮助他们更好地发现哪些同事的情报更有价值、自己当前应该更多探索还是更多收敛。这种自适应的双层结构——底层的粒子群执行加上顶层的轨迹驱动指导——让整个系统在面对各种不同类型的优化问题时都能保持稳健的表现,而不会像固定规则方法那样在某些场景下明显失灵。

这项研究也指出了自身的局限性和未来方向。目前的框架仍是一个"初步探索",通信拓扑是固定的,大语言模型的推理成本也是一个实际部署时需要考量的因素。未来的工作可能会探索更动态的拓扑适应、更轻量级的指导机制,以及如何将这套框架扩展到规模更大、异构程度更高的系统中。对于这一领域感兴趣的读者,可以通过arXiv编号2605.00691查阅完整论文,深入了解所有技术细节和实验数据。

Q&A

Q1:LAC-MAS和普通的粒子群优化算法有什么本质区别?

A:普通粒子群优化的参数是人工固定设置的,整个搜索过程中一成不变。LAC-MAS在此基础上做了两层改进:一是根据粒子群当前的分散程度动态选择不同的行为系数;二是利用大语言模型分析历史优化轨迹,定期更新这些行为系数本身以及智能体之间的合作权重。换句话说,普通粒子群是按固定食谱做菜,LAC-MAS是边做边根据口味反馈调整食谱。

Q2:LAC-MAS中大语言模型每轮都要运行吗,计算成本高不高?

A:不是每轮都运行,这正是分阶段认知调度机制的价值所在。大语言模型只在特定的时间节点被触发,行动指导只更新两次就停止,合作权重的更新也是按固定间隔稀疏发生的。底层的粒子群优化器则在所有轮次连续运行,两者解耦,保证了整体计算效率。

Q3:分布式黑盒共识优化在现实中有哪些具体应用?

A:这类技术在多个实际场景中有直接应用价值。无线传感网络中的多目标定位(论文中已验证)是其中一个典型例子。此外,无人机群编队控制、工厂多机器人协同调度、分布式能源网络的功率优化等,都属于类似的问题结构——多个局部智能节点需要在有限通信下联合优化一个全局目标,且目标函数难以显式表达或计算梯度。