打开网易新闻 查看精彩图片

多智能体系统正在从学界走向业界。

在 Coding、Research 等真实场景里,越来越多系统不再只依赖单个 agent,而是由多个 Agent 分工协作:有人负责规划,有人负责检索,有人调用工具,有人汇总答案。

Agent 的智能化程度越来越高,Agent 网络的规模也越来越大。Agent 从最开始的在本地部署,“面对面” 的协作,逐渐变成了在局域网乃至互联网中进行的 “线上” 合作。当 agent 数量变多,越来越多的 agent 在线部署时,本地直连的通信方式将越来越局限。像互联网的 https 协议一样,agent 也需要有自己的网络通信协议。

Agent 通信协议,

用什么好?

在过去的多智能体研究中,人们更关心 agent 会不会规划、会不会调用工具、能不能协作完成任务。通信协议往往被当作底层工程细节:系统能跑起来就行。

但当多智能体系统进入更接近生产的环境后,协议层会直接影响很多关键指标。

比如,一个协议的消息封装是否足够轻,会影响多跳协作的开销;是否支持稳定的流式响应,会影响高吞吐服务的延迟;是否依赖长连接和复杂会话状态,会影响故障恢复;是否原生支持身份认证、端到端加密和元数据保护,则会影响安全边界。

也就是说,协议不是简单的「数据传输方式」,而是在塑造整个多智能体系统的性能、可靠性和安全性。

MCP 让 agent 连上了在线工具,而 A2A、ACP、ANP、Agora 等多智能体通信协议则在尝试让 agent 连上其他在线 agent。它们各有各的侧重点,有的强调企业级 agent 协作,有的强调跨系统集成,有的强调身份与端到端安全,有的强调去中心化工作流。但在真实系统里,具体选择哪一种协议,长期以来更多依赖工程经验,而不是系统的评测和研究。

关于协议的一系列问题也随之而来:智能体之间到底该怎么通信?什么样的通信协议才算一个好的协议?一个网络中的所有 agent 是否必须使用同一种通信协议?有没有万能的通信协议?

为了填补这一空白,来自 University of Illinois Urbana–Champaign 的研究者提出 ProtocolBench,首次系统比较了四类多智能体通信协议的优劣区间,并进一步提出 ProtocolRouter,让系统能够根据任务场景、约束条件和运行信号自动选择合适协议。

打开网易新闻 查看精彩图片

  • 论文标题:Which LLM Multi-Agent Protocol to Choose?(大语言模型多智能体协议该怎么选?)
  • 论文链接:https://arxiv.org/abs/2510.17149
  • 代码仓库:https://github.com/ulab-uiuc/AgentProtocols
  • 作者:Hongyi Du、Jiaqi Su、Jisen Li、Lijie Ding、Yingxuan Yang、Peixuan Han、Xiangru Tang、Kunlun Zhu、Jiaxuan You
  • 单位:University of Illinois Urbana–Champaign

该成果近日被机器学习顶级会议 ICML 2026 正式接收。

打开网易新闻 查看精彩图片

ProtocolBench 测试框架:把协议单独拎出来

ProtocolBench 的设计思路很直接:尽量固定所有非协议因素,只替换通信边界上的协议实现。

具体来说,实验会固定模型、prompt、硬件环境、容器镜像、工作负载、rate limit 和 agent 拓扑。每个场景里的 agent workflow 只实现一次,然后在 A2A、ACP、ANP、Agora 之间切换通信协议。

这样做的目的,是尽量避免把模型能力差异,prompt 差异,工具实现差异误认为是协议差异。

ProtocolBench 主要评估四个维度:

打开网易新闻 查看精彩图片

为了覆盖不同类型的通信压力,论文设计了四个场景:GAIA Document QA、Safety Tech、Streaming Queue、Fail-Storm Recovery。

打开网易新闻 查看精彩图片

这四个场景对应的测试指标各不相同。

GAIA Document QA 更像 planner 驱动的多跳协作任务。一个 planner 会创建多个有不同角色和工具的 agent,让它们共同抽取、总结、判断证据,并最终回答文档中心的问题。

Safety Tech 被设计成医疗问答场景,包括注册网关、协调器和两个 LLM doctor。系统会被注入 TLS 降级、弱加密套件、证书异常、重放攻击、隧道嗅探、会话劫持等 probe,用来测试协议栈的安全能力。

Streaming Queue 则更接近高吞吐 API 服务。一个 coordinator 和四个 worker 需要处理 1000 条 MS MARCO 数据,重点评估平均延迟、总耗时、方差和成功率。

Fail-Storm Recovery 关注故障恢复。系统由 8 个 agent 构成 Shard-QA 环形网络,每 120 秒杀掉其中 3 个 agent,随后让它们重新加入,观察通信链路能否恢复。

ProtocolBench 评测结果:

各有优劣,无人通吃

在 ProtocolBench 中测试的四种协议,定位各不相同。

A2A 更强调结构化的 agent-to-agent 协作,适合企业级任务编排和大规模 mission-critical 场景。ACP 更偏向 REST /async 风格的跨框架集成,适合将不同服务包装成可交互的 agent endpoint。ANP 更强调身份、安全路由和端到端通信,更适合跨边界、隐私敏感的任务。Agora 则更偏向去中心化 workflow 和 P2P 网络,适合动态网络和异构 routine 协商。

ProtocolBench 的实验结果显示,协议选择会显著影响系统行为,但不存在一个在所有场景里都最优的协议。

打开网易新闻 查看精彩图片

A2A:更适合层级协作和故障恢复

在 GAIA Document QA 中,A2A 的任务效用最高:Quality avg 达到 2.51,Success avg 达到 9.29。相比之下,ACP 的 Quality avg 为 2.27、Success avg 为 5.25;ANP 为 2.14 和 7.28;Agora 为 2.33 和 6.27。

这说明在层级化、planner 驱动、多跳协作的任务里,A2A 的轻量 HTTP + JSON-RPC envelope、agent card 机制和 turn-based 协作方式更容易匹配 agent 工作流

在 Fail-Storm Recovery 中,A2A 也表现最好。它在故障前的 answer discovery 为 14.74,故障后仍有 14.57,保留比例约为 98.85%。

这类场景考验的是节点挂掉、重启、重新加入网络时,协议能不能快速恢复通信。A2A 的优势在于传输层相对无状态,节点重启后只要重新暴露 endpoint,就能比较快地恢复通信。

ACP:更适合高吞吐、低延迟服务

Streaming Queue 场景下,ACP 的平均端到端延迟最低,为 9.66 秒,总耗时为 40.28 分钟,标准差也最小。

A2A 的表现非常接近,平均延迟为 9.70 秒,总耗时 40.45 分钟;但 ANP 和 Agora 的延迟开销更高,平均延迟分别为 11.36 秒和 13.14 秒。

这说明在高吞吐、浅层 request-response 服务里,ACP 这类 REST / SSE 风格协议可以减少每次请求的协商成本,也更方便 coordinator 将请求分发给多个 worker。

对实际系统来说,这类差异并不只是论文表格里的数字。ProtocolBench 中,Streaming Queue 的整体完成时间在不同协议之间最多相差 36.5%。当系统每天处理大量请求时,协议层开销会被持续放大。

ANP / Agora:更适合安全和跨边界通信

Safety Tech 场景给出了另一种结论。

在 TLS transport、session hijack protection、E2E encryption、tunnel sniffing resistance、metadata leakage prevention 五个维度上,ANP 和 Agora 在实验中都覆盖了全部能力。

相比之下,A2A 和 ACP 在部分安全维度上需要额外安全层补足。也就是说,如果系统运行在隐私敏感、跨组织、跨安全边界的场景里,安全能力可能比平均延迟更重要。

这也是多智能体协议选择最现实的地方:更轻的协议通常更快,但更强的身份和隐私机制往往会带来额外开销。选择协议,本质上是在任务成功率、延迟、恢复能力和安全边界之间做取舍。

这也解释了为什么论文并没有把四种协议做成一个简单排行榜。它们服务的是不同系统目标:有的追求轻量协作,有的追求低延迟服务,有的追求安全边界,有的追求去中心化适配。

真正的问题不是哪个协议最好,而是在某个具体场景下该用哪个协议。

ProtocolRouter:既然没有万能协议,

那就让系统自己选

既然没有一个协议能通吃所有场景,论文进一步提出 ProtocolRouter。

ProtocolRouter 并不是一个新通信协议,而是一个约束感知的协议路由器。它会根据场景描述、模块需求、协议能力表和可选的运行时信号,为整个场景或每个模块选择协议。

它遵循一个核心原则:先满足硬约束,再做性能优化。

举例来说,如果某个模块明确要求端到端加密,那么不满足安全约束的协议会先被过滤掉;如果多个协议都满足硬约束,ProtocolRouter 再根据 streaming、request-response、恢复能力、历史性能先验等因素进行选择。

ProtocolRouter 的输出可以是单协议,也可以是 per-module 的异构协议组合。例如:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

需要注意的是,ProtocolRouter 不会改变应用语义,也不会让一个更轻的下游协议自动继承上游更强的安全保证。

当两个 endpoint 使用不同协议时,系统会通过 adapter 做无状态的 encode /decode 映射,也就是把一种 wire format 转成另一种 wire format。这个过程只做 envelope 和字段级映射,不改变业务内容。如果跨越安全域,最终安全保证仍取决于两端协议和 bridge 实际执行的能力。

这让 ProtocolRouter 更像一个低频 planner:它帮助系统在部署或场景切换时做协议选择,而不是在每条消息上随意改协议。

ProtocolRouterBench:

Router 本身也要被评估

为了评估 ProtocolRouter 会不会选协议,论文还提出 ProtocolRouterBench。

ProtocolRouterBench 包含 60 个测试场景、180 个通信模块,并按照 L1 到 L5 分为五个难度等级。难度越高,每个场景里的独立通信模块越多。

评估设置分成两种:

  • Spec-only:只基于协议能力表做选择。
  • Spec+Perf:先满足硬约束,再加入 ProtocolBench 中的性能先验用于打破平局。

打开网易新闻 查看精彩图片

结果显示,Spec-only 模式下,ProtocolRouter 的场景准确率为 53.5%,模块准确率为 71.2%;加入性能先验后,场景准确率提升到 63.3%,模块准确率提升到 81.7%,macro-F1 从 0.721 提升到 0.824。

这组结果说明,协议选择不只依赖协议说明书,也依赖实际 benchmark 中观察到的性能信号。尤其在 L4、L5 这类更复杂场景中,性能先验能帮助 Router 更好地区分 A2A 和 ACP 等容易混淆的协议。

Router 回网,集各家之长

论文进一步把 ProtocolRouter 放回真实 ProtocolBench 场景中做端到端验证。Router 可以在不同的模块间选择最适合的通信协议,也可以在一个网络中对不同的 agent 选择不同的协议,把各家之长统一到一张网中。

打开网易新闻 查看精彩图片

结果显示,ProtocolRouter 在多个目标指标上超过了对应场景的最佳单协议 baseline:

打开网易新闻 查看精彩图片

其中,Fail-Storm 的恢复时间从 8.00 秒降到 6.55 秒,提升幅度达到 18.1%;GAIA 的成功平均值从 9.29 提升到 9.90。

但论文也强调,这并不意味着 ProtocolRouter 在所有指标上都优于最佳单协议。更准确的说法是:在明确约束下,受控的 per-scenario 或 per-module 协议组合是有价值的。

换句话说,ProtocolRouter 证明的是「按场景选择协议」这件事本身值得做,而不是证明某个路由器已经可以在所有系统里自动取得最优解。

结语:多智能体系统的下一层竞争,

可能在协议层

随着 LLM agent 从研究原型走向生产系统,多智能体协作不再只是 prompt 和工具调用的问题。

当多个 agent 需要长期通信、分工协作、共享状态、处理失败、跨越安全边界时,通信协议就会成为系统性能和可靠性的关键层。

ProtocolBench 的价值在于,它把过去靠工程直觉判断的协议选择问题,变成了可以评测、比较和复现的系统问题。ProtocolRouter 的价值则在于,它进一步把「选哪个协议」变成了一个可以被约束、被路由、被验证的决策过程。

这篇论文给多智能体系统工程化提供了一个很实用的提醒:不要把协议当成透明管道。协议会影响系统能不能跑得快、能不能恢复、能不能保护隐私,也会影响多智能体协作能走多远。

当 agent 系统变得越来越复杂,真正重要的问题可能不再是「哪个协议最强」,而是:系统是否知道自己在什么场景下,需要什么样的通信能力。

作者团队介绍

本文第一作者为伊利诺伊大学厄巴纳–香槟分校本科生 Hongyi Du, 主要研究方向为多智能体系统,自进化智能体和智能体相关的测试基准。研究由 Jiaxuan You 教授和 UIUC 的 CS Phd Kunlun Zhu 指导完成,团队致力于深入挖掘多智能体系统的合作范式,提升多智能体的合作性能。