多智能体系统成本暴涨6.4倍，值吗？

爬虫饲养员

2026-05-25 02:21 ·北京

一位SaaS创始人把一张供应商发票转发给我们，只附了一句话："这是他们预估价格的6.4倍。"发票对应的是一套"多智能体团队"系统——一家咨询公司把它推销成单智能体客服机器人的升级方案。推销时预估单次查询成本0.04美元，实际生产环境跑到了0.255美元。

相比之前的单智能体方案，准确率只提升了4个百分点（从78%到82%）。延迟却从4秒暴增到19秒（95分位值）。用户满意度反而下降，因为很多人等不到响应就放弃了。

问题诊断结果：这套系统根本不需要供应商搭建的大部分智能体。多智能体是真实有用的模式，但也经常被用错场景，卖给那些缺乏判断框架的团队。以下是我们给创始人梳理的成本账。

真实的成本倍数

单智能体处理一次客户查询的成本构成：

• 1次大语言模型调用理解查询：0.002美元

• 1-2次工具调用（检索增强生成搜索、账户查询）：0.001美元

• 1次大语言模型调用生成回复：0.003美元

合计：约0.006美元/查询（调优良好的单智能体）

同一场景的多智能体系统，视供应商设计而定：

• 1次路由大语言模型调用分配任务：0.002美元

• 3-5个专业智能体，各运行2-3次大语言模型调用的推理行动循环：0.020-0.060美元

• 1次合成大语言模型调用整合结果：0.005美元

• 1次评判大语言模型调用验证输出：0.005美元

合计：0.032-0.072美元/查询。这是单智能体成本的5到12倍。

供应商预估的0.04美元处于乐观区间。实际生产环境冲到0.255美元，原因是真实查询比测试集更复杂、智能体循环次数更多、几种热门查询类型触发了级联子智能体调用。推销时不会展示这套数学。成本预估假设的是最佳情况，生产环境通常比它差3到6倍。

什么情况下成本确实值得

多智能体系统确实能产出更好结果，但仅限于特定任务类型。准确率提升大致如下：

同质化任务（常见问题解答、单领域支持、简单问答）：0-5个百分点。经常是0。单智能体基线已经和多智能体一样好，因为没有可分配的专业化空间。

异质化任务且专业化明确（跨领域研究、多维度代码审查、多角度尽职调查）：15-30个百分点。数学上划算，因为每个智能体确实提供了其他智能体无法替代的视角。

多步推理任务（综合、规划、复杂决策）：10-20个百分点。任务确实复杂时值得投入。

这位创始人的客服场景属于第一类。90%的查询集中在账单、账户和产品问题。四个专业智能体没有真正的专业化分工依据。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴