一位SaaS创始人把一张供应商发票转发给我们,只附了一句话:"这是他们预估价格的6.4倍。"发票对应的是一套"多智能体团队"系统——一家咨询公司把它推销成单智能体客服机器人的升级方案。推销时预估单次查询成本0.04美元,实际生产环境跑到了0.255美元。

相比之前的单智能体方案,准确率只提升了4个百分点(从78%到82%)。延迟却从4秒暴增到19秒(95分位值)。用户满意度反而下降,因为很多人等不到响应就放弃了。

打开网易新闻 查看精彩图片

问题诊断结果:这套系统根本不需要供应商搭建的大部分智能体。多智能体是真实有用的模式,但也经常被用错场景,卖给那些缺乏判断框架的团队。以下是我们给创始人梳理的成本账。

打开网易新闻 查看精彩图片

真实的成本倍数

单智能体处理一次客户查询的成本构成:

• 1次大语言模型调用理解查询:0.002美元

• 1-2次工具调用(检索增强生成搜索、账户查询):0.001美元

• 1次大语言模型调用生成回复:0.003美元

合计:约0.006美元/查询(调优良好的单智能体)

同一场景的多智能体系统,视供应商设计而定:

• 1次路由大语言模型调用分配任务:0.002美元

• 3-5个专业智能体,各运行2-3次大语言模型调用的推理行动循环:0.020-0.060美元

• 1次合成大语言模型调用整合结果:0.005美元

打开网易新闻 查看精彩图片

• 1次评判大语言模型调用验证输出:0.005美元

合计:0.032-0.072美元/查询。这是单智能体成本的5到12倍。

供应商预估的0.04美元处于乐观区间。实际生产环境冲到0.255美元,原因是真实查询比测试集更复杂、智能体循环次数更多、几种热门查询类型触发了级联子智能体调用。推销时不会展示这套数学。成本预估假设的是最佳情况,生产环境通常比它差3到6倍。

什么情况下成本确实值得

多智能体系统确实能产出更好结果,但仅限于特定任务类型。准确率提升大致如下:

同质化任务(常见问题解答、单领域支持、简单问答):0-5个百分点。经常是0。单智能体基线已经和多智能体一样好,因为没有可分配的专业化空间。

异质化任务且专业化明确(跨领域研究、多维度代码审查、多角度尽职调查):15-30个百分点。数学上划算,因为每个智能体确实提供了其他智能体无法替代的视角。

多步推理任务(综合、规划、复杂决策):10-20个百分点。任务确实复杂时值得投入。

这位创始人的客服场景属于第一类。90%的查询集中在账单、账户和产品问题。四个专业智能体没有真正的专业化分工依据。