打开网易新闻 查看精彩图片

2024年Q1到2025年Q2,Gartner接到关于多智能体系统的咨询量暴涨1445%。

不是"增长显著",是14倍。企业采购部门的人大概已经看麻了。

这个数字背后是一场正在发生的架构迁移:从"你问我答"的副驾驶模式,转向"给目标就干活"的agent同事模式。前者需要人类当胶水,把每个步骤粘在一起;后者把胶水角色也外包出去。

副驾驶的瓶颈:人类成了瓶颈

副驾驶的瓶颈:人类成了瓶颈

过去两年的AI助手有个统一模板:一个聊天框,你打字,它回复,然后你回去干正事。写邮件、解释代码、总结文档——这些场景里,人类是天然的协调者。问一句、看一眼、决定下一步,循环往复。

这套流程在简单任务上跑得通,但一旦目标变成"帮我上线一个功能",裂缝立刻出现。

不是写代码的问题。是规划工作、编写代码、测试验证、捕捉边界情况、标记处理不了的部分——这一串动作如果每一步都等人类确认,你会发现"监督模型"比"自己干"更耗时间。人类从执行者降级为保姆,而保姆的时薪通常比执行者高。

Agentic系统的解法很直接:把目标扔给AI,配一套工具,让它自己决定下一步。做计划、调API、检查结果、失败重试。人类定目标、审结果;中间发生的一切,模型自己兜着。

SS&C Blue Prism的观察是,企业正在意识到一件事:AI同事不是未来时,是进行时。复杂工作流的管理已经不需要持续的人类监督。

从单兵到兵团:架构层的微服务化

从单兵到兵团:架构层的微服务化

单个agent有天花板。一个模型、一个上下文窗口、一个循环——边界清晰的任务能应付,但工作本身太大或太杂时,可靠性断崖式下跌。

企业AI的架构迁移不是堆更大的模型,是堆更多的agent。专业agent的编排网络:每个agent锁定一个领域,由编排器协调,共享记忆 grounding。这种结构能完成的工作流,单模型要么上下文窗口爆炸,要么可靠性不达标。

行业里的类比越来越指向微服务。单体应用让位于分布式架构,全能型agent也让位于编排化的专业agent团队——"傀儡师"式的编排器调动各路专家。

Fordel Studios的架构图里,这种分层很清晰:顶层是用户接口和目标输入,中间是编排层负责任务分解和agent调度,底层是各专业agent的执行层。记忆和工具库横向贯穿,保证上下文不丢。

保险行业给了个干净的落地样本。一个多agent系统处理单次理赔,动用了7个专职agent:Planner Agent启动工作流,Coverage Agent核验保单,Fraud Agent扫描异常,Payout Agent计算金额,Audit Agent生成人类可读的摘要。

结果是处理时间砍掉80%。

这个数字的残酷之处在于:它不是实验室里的理论加速,是理赔员每天处理的单子。省下来的时间,公司可以选择裁员,也可以选择让人去处理那20%真正需要人类判断的复杂案件。两种选择都在发生。

编排器的权力:谁当傀儡师

编排器的权力:谁当傀儡师

多agent架构的核心权力落在编排器手里。它决定任务怎么拆、调谁、顺序是什么、冲突怎么解。

这个角色的设计空间很大。简单版本是规则引擎:if A then B。复杂版本是另一个LLM,动态规划、实时调整。最激进的版本在实验强化学习,让编排器从反馈里学最优调度策略。

MachineLearningMastery的跟踪显示,开源社区正在分化。LangGraph、AutoGen、CrewAI三条路线各自聚集开发者。LangGraph强在状态管理和可视化调试,AutoGen背靠微软生态强调对话式协作,CrewAI走角色扮演路线,让agent有"人设"来减少协调成本。

没有统一标准意味着没有锁定,也意味着迁移成本。企业选型时赌的不只是技术栈,是哪家社区能活到明年。

共享记忆层是另一个战场。Agent之间需要交换上下文,但怎么交换、交换多少、隐私边界在哪,没有共识。有的架构用中心化向量数据库,有的走点对点同步,有的在尝试区块链式的不可篡改日志——不是为了去中心化,是为了审计时能说清楚"这个决定是谁做的"。

从工具到同事:组织层面的 friction

从工具到同事:组织层面的 friction

技术架构变了,组织架构还没跟上。

Agent作为"同事"引入,触发的是一系列没有手册的问题。KPI怎么设?一个agent处理了80%的标准理赔,它的绩效算谁的?出错时责任怎么追溯?是写agent的人、部署agent的人、还是最后点"确认"的人?

更隐蔽的是技能贬值曲线。过去三年,"会用AI工具"是简历加分项。现在工具自己干活,人类的溢价转向"能定义好问题"和"能判断结果好坏"。但这两件事比"操作软件"难教得多,也难评估得多。

保险行业的理赔员正在经历这种转换。系统接手了标准化流程,留给人的是模糊地带:保单条款的灰色解释、客户情绪的安抚、欺诈信号的直觉判断。这些工作的产出很难量化,但公司又迫切需要量化来 justify 人力成本。

有些团队在实验"人机混合KPI":agent的吞吐量+人类的升级处理率+客户满意度,打包成一个综合分。但权重怎么设,会议室里吵了三个月。

可靠性幻觉:当agent说"我搞定了"

可靠性幻觉:当agent说"我搞定了"

多agent系统的一个隐蔽风险是错误放大。单模型出错,人类通常能 catch;但七个agent接力,每个都以为上一个没问题,错误可以一路传导到终点。

保险案例里的Audit Agent是道防线,但审计本身也是agent做的。递归式的自我检查听起来美好,实际中出现过Audit Agent给Fraud Agent的漏检打勾的情况——不是因为串通,是因为训练数据里的"正常"样本覆盖了边缘案例。

行业里的应对还在早期。有的在关键节点强制插入人类确认点,但这就削弱了自动化的价值。有的在实验"对抗性agent":专门养一个挑刺的agent,它的唯一任务是找出其他agent的漏洞。成本翻倍,但某些场景下值得。

更根本的问题是评估标准。怎么知道一个agent系统"足够好"?传统的软件测试用例覆盖率在非确定性模型面前失效。有的团队转向"行为契约":不规定具体输出,规定输出必须满足的不变式。比如"赔付金额不能超过保单上限"是硬约束,"摘要必须包含客户姓名和出险时间"是软约束。

契约的编写本身成了新工种。懂业务、懂逻辑、又懂模型行为边界的人,时价比普通产品经理高40%——这是某头部保险公司的内部数据。

落地地图:谁在真干,谁在观望

落地地图:谁在真干,谁在观望

1445%的咨询增长不等于1445%的采购增长。Gartner的同一批数据里,实际部署多agent系统的企业占比还不到15%。大多数还在POC阶段,或者更诚实地说,还在"让我们先看看别人怎么摔"阶段。

金融和保险领跑,原因很实际:数据结构化程度高、流程标准化、错误成本高到值得投入。制造业在跟进,但场景更碎:一个工厂的"异常检测"可能涉及二十种不同的设备信号,每种都要专门agent,编排复杂度指数级上升。

医疗是最谨慎的。FDA对AI诊断设备的审批框架还没覆盖多agent系统,"黑箱套黑箱"的监管难题没有解法。有些医院在行政流程里试水,临床决策层至少还要两年。

创业公司的窗口期正在收窄。基础设施层有大厂碾压,应用层有行业know-how壁垒,中间层的编排工具最拥挤但也最危险——OpenAI和Anthropic的下一步更新可能直接吃掉这个层。

一个被反复提到的信号:OpenAI的Swarm框架发布时,某多agent初创公司的CEO在X上发了条"well, shit",然后删了。截图还在流传。

2025-26的结构性切换

2025-26的结构性切换

回到开头那个1445%。这个数字的陡峭程度暗示这不是渐进改良,是范式替换的陡峭期。

Copilot时代的人类是驾驶员,手握方向盘,AI在副驾递导航建议。Agent时代的人类更像产品经理:定OKR、审交付物、处理升级投诉。方向盘没了,但你要为事故负责。

这种切换对25-40岁的科技从业者意味着什么?技能组合在重构。代码能力还在贬值,但"把模糊目标翻译成可执行约束"的能力在溢价。不是写prompt,是设计agent的决策边界;不是调模型参数,是定义什么情况下必须喊人。

保险行业那个7-agent系统的架构师,背景是规则引擎时代的业务流程管理,不是深度学习。这种跨界组合正在成为标配。

最后的事实:Gartner的咨询增长曲线里,Q2 2025的斜率比Q1更陡。也就是说,1445%可能还不是峰值。