Agent通讯的「运营商」哪家强？UIUC团队发布ProtocolBench|agent|信号|工作流|开源模型|路由器|通信

多智能体系统正在从学界走向业界。

在 Coding、Research 等真实场景里，越来越多系统不再只依赖单个 agent，而是由多个 Agent 分工协作：有人负责规划，有人负责检索，有人调用工具，有人汇总答案。

Agent 的智能化程度越来越高，Agent 网络的规模也越来越大。Agent 从最开始的在本地部署，“面对面” 的协作，逐渐变成了在局域网乃至互联网中进行的 “线上” 合作。当 agent 数量变多，越来越多的 agent 在线部署时，本地直连的通信方式将越来越局限。像互联网的 https 协议一样，agent 也需要有自己的网络通信协议。

Agent 通信协议，

用什么好？

在过去的多智能体研究中，人们更关心 agent 会不会规划、会不会调用工具、能不能协作完成任务。通信协议往往被当作底层工程细节：系统能跑起来就行。

但当多智能体系统进入更接近生产的环境后，协议层会直接影响很多关键指标。

比如，一个协议的消息封装是否足够轻，会影响多跳协作的开销；是否支持稳定的流式响应，会影响高吞吐服务的延迟；是否依赖长连接和复杂会话状态，会影响故障恢复；是否原生支持身份认证、端到端加密和元数据保护，则会影响安全边界。

也就是说，协议不是简单的「数据传输方式」，而是在塑造整个多智能体系统的性能、可靠性和安全性。

MCP 让 agent 连上了在线工具，而 A2A、ACP、ANP、Agora 等多智能体通信协议则在尝试让 agent 连上其他在线 agent。它们各有各的侧重点，有的强调企业级 agent 协作，有的强调跨系统集成，有的强调身份与端到端安全，有的强调去中心化工作流。但在真实系统里，具体选择哪一种协议，长期以来更多依赖工程经验，而不是系统的评测和研究。

关于协议的一系列问题也随之而来：智能体之间到底该怎么通信？什么样的通信协议才算一个好的协议？一个网络中的所有 agent 是否必须使用同一种通信协议？有没有万能的通信协议？

为了填补这一空白，来自 University of Illinois Urbana–Champaign 的研究者提出 ProtocolBench，首次系统比较了四类多智能体通信协议的优劣区间，并进一步提出 ProtocolRouter，让系统能够根据任务场景、约束条件和运行信号自动选择合适协议。

论文标题：Which LLM Multi-Agent Protocol to Choose?（大语言模型多智能体协议该怎么选？）
论文链接：https://arxiv.org/abs/2510.17149
代码仓库：https://github.com/ulab-uiuc/AgentProtocols
作者：Hongyi Du、Jiaqi Su、Jisen Li、Lijie Ding、Yingxuan Yang、Peixuan Han、Xiangru Tang、Kunlun Zhu、Jiaxuan You
单位：University of Illinois Urbana–Champaign

该成果近日被机器学习顶级会议 ICML 2026 正式接收。

ProtocolBench 测试框架：把协议单独拎出来

ProtocolBench 的设计思路很直接：尽量固定所有非协议因素，只替换通信边界上的协议实现。

具体来说，实验会固定模型、prompt、硬件环境、容器镜像、工作负载、rate limit 和 agent 拓扑。每个场景里的 agent workflow 只实现一次，然后在 A2A、ACP、ANP、Agora 之间切换通信协议。

这样做的目的，是尽量避免把模型能力差异，prompt 差异，工具实现差异误认为是协议差异。

ProtocolBench 主要评估四个维度：

为了覆盖不同类型的通信压力，论文设计了四个场景：GAIA Document QA、Safety Tech、Streaming Queue、Fail-Storm Recovery。

这四个场景对应的测试指标各不相同。

GAIA Document QA 更像 planner 驱动的多跳协作任务。一个 planner 会创建多个有不同角色和工具的 agent，让它们共同抽取、总结、判断证据，并最终回答文档中心的问题。

Safety Tech 被设计成医疗问答场景，包括注册网关、协调器和两个 LLM doctor。系统会被注入 TLS 降级、弱加密套件、证书异常、重放攻击、隧道嗅探、会话劫持等 probe，用来测试协议栈的安全能力。

Streaming Queue 则更接近高吞吐 API 服务。一个 coordinator 和四个 worker 需要处理 1000 条 MS MARCO 数据，重点评估平均延迟、总耗时、方差和成功率。

Fail-Storm Recovery 关注故障恢复。系统由 8 个 agent 构成 Shard-QA 环形网络，每 120 秒杀掉其中 3 个 agent，随后让它们重新加入，观察通信链路能否恢复。

ProtocolBench 评测结果：

各有优劣，无人通吃

在 ProtocolBench 中测试的四种协议，定位各不相同。

A2A 更强调结构化的 agent-to-agent 协作，适合企业级任务编排和大规模 mission-critical 场景。ACP 更偏向 REST /async 风格的跨框架集成，适合将不同服务包装成可交互的 agent endpoint。ANP 更强调身份、安全路由和端到端通信，更适合跨边界、隐私敏感的任务。Agora 则更偏向去中心化 workflow 和 P2P 网络，适合动态网络和异构 routine 协商。

ProtocolBench 的实验结果显示，协议选择会显著影响系统行为，但不存在一个在所有场景里都最优的协议。

A2A：更适合层级协作和故障恢复

在 GAIA Document QA 中，A2A 的任务效用最高：Quality avg 达到 2.51，Success avg 达到 9.29。相比之下，ACP 的 Quality avg 为 2.27、Success avg 为 5.25；ANP 为 2.14 和 7.28；Agora 为 2.33 和 6.27。

这说明在层级化、planner 驱动、多跳协作的任务里，A2A 的轻量 HTTP + JSON-RPC envelope、agent card 机制和 turn-based 协作方式更容易匹配 agent 工作流。

在 Fail-Storm Recovery 中，A2A 也表现最好。它在故障前的 answer discovery 为 14.74，故障后仍有 14.57，保留比例约为 98.85%。

这类场景考验的是节点挂掉、重启、重新加入网络时，协议能不能快速恢复通信。A2A 的优势在于传输层相对无状态，节点重启后只要重新暴露 endpoint，就能比较快地恢复通信。

ACP：更适合高吞吐、低延迟服务

Streaming Queue 场景下，ACP 的平均端到端延迟最低，为 9.66 秒，总耗时为 40.28 分钟，标准差也最小。

A2A 的表现非常接近，平均延迟为 9.70 秒，总耗时 40.45 分钟；但 ANP 和 Agora 的延迟开销更高，平均延迟分别为 11.36 秒和 13.14 秒。

这说明在高吞吐、浅层 request-response 服务里，ACP 这类 REST / SSE 风格协议可以减少每次请求的协商成本，也更方便 coordinator 将请求分发给多个 worker。

对实际系统来说，这类差异并不只是论文表格里的数字。ProtocolBench 中，Streaming Queue 的整体完成时间在不同协议之间最多相差 36.5%。当系统每天处理大量请求时，协议层开销会被持续放大。

ANP / Agora：更适合安全和跨边界通信

Safety Tech 场景给出了另一种结论。

在 TLS transport、session hijack protection、E2E encryption、tunnel sniffing resistance、metadata leakage prevention 五个维度上，ANP 和 Agora 在实验中都覆盖了全部能力。

相比之下，A2A 和 ACP 在部分安全维度上需要额外安全层补足。也就是说，如果系统运行在隐私敏感、跨组织、跨安全边界的场景里，安全能力可能比平均延迟更重要。

这也是多智能体协议选择最现实的地方：更轻的协议通常更快，但更强的身份和隐私机制往往会带来额外开销。选择协议，本质上是在任务成功率、延迟、恢复能力和安全边界之间做取舍。

这也解释了为什么论文并没有把四种协议做成一个简单排行榜。它们服务的是不同系统目标：有的追求轻量协作，有的追求低延迟服务，有的追求安全边界，有的追求去中心化适配。

真正的问题不是哪个协议最好，而是在某个具体场景下该用哪个协议。

ProtocolRouter：既然没有万能协议，

那就让系统自己选

既然没有一个协议能通吃所有场景，论文进一步提出 ProtocolRouter。

ProtocolRouter 并不是一个新通信协议，而是一个约束感知的协议路由器。它会根据场景描述、模块需求、协议能力表和可选的运行时信号，为整个场景或每个模块选择协议。

它遵循一个核心原则：先满足硬约束，再做性能优化。

举例来说，如果某个模块明确要求端到端加密，那么不满足安全约束的协议会先被过滤掉；如果多个协议都满足硬约束，ProtocolRouter 再根据 streaming、request-response、恢复能力、历史性能先验等因素进行选择。

ProtocolRouter 的输出可以是单协议，也可以是 per-module 的异构协议组合。例如：

需要注意的是，ProtocolRouter 不会改变应用语义，也不会让一个更轻的下游协议自动继承上游更强的安全保证。

当两个 endpoint 使用不同协议时，系统会通过 adapter 做无状态的 encode /decode 映射，也就是把一种 wire format 转成另一种 wire format。这个过程只做 envelope 和字段级映射，不改变业务内容。如果跨越安全域，最终安全保证仍取决于两端协议和 bridge 实际执行的能力。

这让 ProtocolRouter 更像一个低频 planner：它帮助系统在部署或场景切换时做协议选择，而不是在每条消息上随意改协议。

ProtocolRouterBench：

Router 本身也要被评估

为了评估 ProtocolRouter 会不会选协议，论文还提出 ProtocolRouterBench。

ProtocolRouterBench 包含 60 个测试场景、180 个通信模块，并按照 L1 到 L5 分为五个难度等级。难度越高，每个场景里的独立通信模块越多。

评估设置分成两种：

Spec-only：只基于协议能力表做选择。
Spec+Perf：先满足硬约束，再加入 ProtocolBench 中的性能先验用于打破平局。

结果显示，Spec-only 模式下，ProtocolRouter 的场景准确率为 53.5%，模块准确率为 71.2%；加入性能先验后，场景准确率提升到 63.3%，模块准确率提升到 81.7%，macro-F1 从 0.721 提升到 0.824。

这组结果说明，协议选择不只依赖协议说明书，也依赖实际 benchmark 中观察到的性能信号。尤其在 L4、L5 这类更复杂场景中，性能先验能帮助 Router 更好地区分 A2A 和 ACP 等容易混淆的协议。

Router 回网，集各家之长

论文进一步把 ProtocolRouter 放回真实 ProtocolBench 场景中做端到端验证。Router 可以在不同的模块间选择最适合的通信协议，也可以在一个网络中对不同的 agent 选择不同的协议，把各家之长统一到一张网中。

结果显示，ProtocolRouter 在多个目标指标上超过了对应场景的最佳单协议 baseline：

其中，Fail-Storm 的恢复时间从 8.00 秒降到 6.55 秒，提升幅度达到 18.1%；GAIA 的成功平均值从 9.29 提升到 9.90。

但论文也强调，这并不意味着 ProtocolRouter 在所有指标上都优于最佳单协议。更准确的说法是：在明确约束下，受控的 per-scenario 或 per-module 协议组合是有价值的。

换句话说，ProtocolRouter 证明的是「按场景选择协议」这件事本身值得做，而不是证明某个路由器已经可以在所有系统里自动取得最优解。

结语：多智能体系统的下一层竞争，

可能在协议层

随着 LLM agent 从研究原型走向生产系统，多智能体协作不再只是 prompt 和工具调用的问题。

当多个 agent 需要长期通信、分工协作、共享状态、处理失败、跨越安全边界时，通信协议就会成为系统性能和可靠性的关键层。

ProtocolBench 的价值在于，它把过去靠工程直觉判断的协议选择问题，变成了可以评测、比较和复现的系统问题。ProtocolRouter 的价值则在于，它进一步把「选哪个协议」变成了一个可以被约束、被路由、被验证的决策过程。

这篇论文给多智能体系统工程化提供了一个很实用的提醒：不要把协议当成透明管道。协议会影响系统能不能跑得快、能不能恢复、能不能保护隐私，也会影响多智能体协作能走多远。

当 agent 系统变得越来越复杂，真正重要的问题可能不再是「哪个协议最强」，而是：系统是否知道自己在什么场景下，需要什么样的通信能力。

作者团队介绍

本文第一作者为伊利诺伊大学厄巴纳–香槟分校本科生 Hongyi Du, 主要研究方向为多智能体系统，自进化智能体和智能体相关的测试基准。研究由 Jiaxuan You 教授和 UIUC 的 CS Phd Kunlun Zhu 指导完成，团队致力于深入挖掘多智能体系统的合作范式，提升多智能体的合作性能。