打开网易新闻 查看精彩图片

作者 | 冬梅

企业级多智能体(Multi-Agent)系统最大的瓶颈,往往不是 Agent 不够强,而是负责分发任务的 Router(路由器)太“傻”。传统 Router 只会做简单的单选分类,面对复杂的企业级故障经常“瞎指挥”,在企业运维的十字路口,我们需要一个更聪明的“交警”。

过去一年里,Multi-Agent 架构正在成为企业 AI 的新基建。我们忙着造更强的 SQLAgent、更快的检索 Agent,但却发现运维系统的十字路口却越来越拥堵了。

和想象中的 Agent 们“游刃有余”的自动协同、分工协作不同,因为传统 Router 的上限太低、智能程度有限,很难跟上 Agent 们“匆匆忙忙”的脚步。在未来的企业 AI 系统中,Agent 越来越多,能力边界越来越模糊,系统必须具备“承认不确定性并协作解决”的能力。

今天,腾讯云正式开源 TCAR(Tencent Cloud Andon Router)——一个只有 4B 参数,但学会了“先想清楚,再选择”的智能路由模型,它专为解决跨域、冲突和模糊问题而生,为企业 AI 应用提供 Reasoning-centric Routing+Multi-Agent Collaboration 的基础形态。

1 为什么传统 Router 在企业运维场景里“玩不转”了?

这里可以看几个非常常见的场景:

1. 不同 agent 可能能解决一样的问题,传统 Router 通常为单标签分类,只考虑选择一个 agent,导致无法给出最优解决方案。

打开网易新闻 查看精彩图片

2. 新业务、新 Agent 随时上线,传统 Router 对这些“新同事”完全不了解,需重新训练,也就无法快速分配给他们最合适的工作。

打开网易新闻 查看精彩图片

3. 用户描述模糊、不完整。例如用户提到“网站访问延时”,传统 Router 就无法确定不确定是 CDN、COS 还是网络的问题。

打开网易新闻 查看精彩图片

4. 传统 Router 缺乏可解释性,黑盒决策,一旦路由错了,没法快速修复 badcase,后面 Agent 再强也救不回来。

打开网易新闻 查看精彩图片

总结来说,传统 Router 面对企业场景有三大硬伤:搞不定跨域、解不了冲突、跟不上变化。

2 TCAR 的解法:像人类专家一样“先想后做”

TCAR(TencentCloudAndonRouter)的核心很简单,但在 Router 中几乎没人认真做过——把路由从直接预测标签,变成先推理再选择 Agent 集合。这时候,Router 不再是一个收发任务的转接系统,而是变成了一个具备推理能力的“决策者”。它把路由过程从单项选择变成了“写分析报告 + 组建任务组”;它的工作职能从挑选队列最前面的 agent 完成任务,到在专家梯队中找到最合适的那个人选来完成任务。

它就像是一个拥有顶尖专家团队的,高度聪明且能够自我决策的“项目经理”。

能力一:Reason-then-Select(拒绝黑盒,把思考过程写出来)

打开网易新闻 查看精彩图片

TCAR 在输出 Agent 之前,会先生成一段自然语言推理链,明确说明问题可能涉及哪些技术栈,不同 Agent 的职责边界,为什么多个 Agent 执行是合理的,这让路由不再是黑盒,而是可解释、可 Debug、可持续优化 Agent 描述。

能力二:从单挑到团战

打开网易新闻 查看精彩图片

在 TCAR 中路由结果不再是 one-hot,而是一个 Agent 子集,这一步直接解决了企业系统中最棘手的 Agent 冲突问题:不强行压缩决策,而是保留不确定性,交给后续协作解决。当然,这也要建立在对指令聪明且充分的理解力上。

能力三:专家会诊,择优输出

打开网易新闻 查看精彩图片

当 TCAR 选出多个候选 Agent 后,每个 Agent 独立给出自己的专业答案,而后由一个 RefiningAgent 负责对比、消歧、融合,最终输出一个完整、无冲突的答案,这套模式在排障类问题上效果尤其明显。

3 覆盖全面、命中精准,硬核且强大

TCAR 不是一个简单的 Prompt 工程产物,为了让它具备上述能力,我们做了两件比较特别的事情:

一是两阶段训练 + 特殊融合,兼顾推理能力和选择精度。

  • 阶段一 SFT(监督微调):教会模型结构化推理,学会输出 Agent 集合,通过 Slerp 方法融合模型。

  • 阶段二 RL(强化学习 /DAPO):重点调教模型“选得对不对”。

二是专门针对多 Agent 设计奖励函数,把路由当成一个集合预测问题,在模型覆盖率和精确度之间形成稳定平衡。

  • R1 奖励(类似精确率 Precision):你选出来的 Agent 里,有多少是真正干活的?(防止选了一堆没用的配角)

  • R2 奖励(类似召回率 Recall):关键的那几个 Agent,你有没有漏掉?(防止漏掉主角)

  • 长度惩罚:防止模型为了求稳把所有 Agent 全选上。

最后,经过 CLINC150、HWU64、MINDS14、SGD、Qcloud 五个数据集的评测,TCAR 在企业高冲突数据上全面超过当前主流大模型 Router,在高歧义、跨域问题中更稳定,4B 参数量推理速度快成本低,更重要的是下游多 Agent + Refining Agent 的整体成功率显著提升。

腾讯云还提供了全套的完整开源范式,包括:TCAR 路由模型(4B)、Prompt 规范(Router / Refining Agent)、训练方法与实验细节、可直接落地的多 Agent 路由范式。

  • HuggingFace:https://huggingface.co/tencent/TCAndon-Router

  • GitHub:https://github.com/Tencent/TCAndon-Router

  • Paper:https://arxiv.org/pdf/2601.04544