过去一年,"智能体"(AI Agent,具备自主决策能力的人工智能系统)这个词在行业里被用烂了。某大厂技术负责人告诉我,他们团队今年收到的方案里,73%都把"增加规划-执行循环"写进了需求文档——哪怕只是做个数据格式转换。
这不是技术进步,这是集体焦虑下的过度医疗。
一个价值200万的错误决策
去年Q3,我参与评审了一个金融客户的智能客服项目。他们的原始需求很简单:用户问"我的账单在哪",系统返回对应链接。原本30行正则表达式就能解决。
交付方案却长这样:意图识别模块→记忆上下文→工具选择→执行→反思→重试。六个环节,三个模型调用,平均响应延迟4.2秒,成本是原方案的47倍。
上线两周后,他们发现一件尴尬的事:用户最常问的三个问题,有固定答案。但智能体偶尔会"发挥创意",把账单链接解释成理财产品推荐。
确定性系统给你的是保证。智能体系统给你的是概率。当你需要"永远相同的结果"时,引入大语言模型不是升级,是埋雷。
这个项目的最终处理方案是:保留智能体框架,但给那三个高频问题写死规则。相当于给跑车装了个脚蹬子。
自动化和智能,根本不是一回事
我见过太多团队把这两个概念混为一谈。用个粗暴的类比:自动化是地铁,智能体是网约车。
地铁的路线、站点、发车间隔全部固定。你不需要"智能",你需要的是可预测、低成本、高吞吐。网约车面对的是不确定——乘客在哪、目的地哪、走哪条路不堵。这时候才需要实时决策。
判断标准很简单:如果你能把它写成函数或工作流,就别上智能体。
日常工作中,发送邮件通知、格式化数据、按条件路由请求,这些属于自动化。而回答开放式用户查询、跨源信息整合、处理模糊需求,这些才需要智能体。
麻烦的是,很多团队反着来。他们用智能体处理确定性问题,理由是"更灵活""可扩展"。结果得到的是更慢、更贵、更难调试的系统。
调试智能体,像在迷雾中找针
传统系统崩溃时,日志会告诉你第几行报错、什么变量越界。智能体崩溃时,你得到的是:"模型认为这个查询应该调用工具B,但工具B返回了空,于是模型决定重试,重试时改变了参数格式,导致工具C理解错误……"
你不再是在调试代码。你是在调试一个黑盒的"决策倾向"。
某头部云厂商的工程师跟我吐槽,他们一个生产环境的智能体工作流,连续三天在凌晨2点触发异常重试。最后发现原因是:那个时间段的系统提示词里,"请尽快处理"被模型解读出了紧迫感,导致决策阈值漂移。
这种bug,单元测试抓不住,日志看不全,复盘时连复现都困难。
那个能省你三周的问题
在动手之前,问一句:这个任务需要推理,还是只需要执行?
听起来像废话。但就是这个判断,区分了干净系统和过度工程。
我见过最离谱的案例:一个数据清洗任务,源字段和目标字段的映射关系完全固定。开发团队却设计了"智能映射"——让模型自己猜对应关系,准确率91%。剩下9%的错误数据流入下游,花了两周才定位。
最后改成硬编码映射表,代码从400行降到30行,准确率100%,执行时间从分钟级降到毫秒级。
智能体真正的用武之地
说这些不是为了否定智能体。它们在某些场景下不可替代。
当你的系统满足以下任一条件时,上智能体是合理的:输入无法用固定规则穷举;执行路径依赖实时上下文;输出需要创造性组合;失败代价低于人工介入成本。
典型的合适场景:研究助手(跨多源整合信息)、代码生成(理解模糊需求并产出)、个性化推荐(平衡多目标优化)。
最好的系统往往不是全智能体架构。而是混合设计:数据转换用确定性管道,异常处理用规则兜底,只有核心决策环节交给模型。
某电商平台的客服系统就是这样。80%的查询走规则引擎,15%走检索增强生成(RAG,结合外部知识库的大语言模型应用),5%的复杂投诉才进入多步骤智能体。这套架构的维护成本,是纯智能体方案的1/8。
为什么现在说这些特别重要
大语言模型越来越便宜,越来越容易调用。这创造了向复杂性倾斜的偏见。
"更多智能=更好系统"——这个等式在工程里不成立。有时候最好的系统是:做一件事,每次都做对,出了问题能定位。
智能体不是默认架构。它是一种工具,和其他工具一样,有适用范围。
好的工程不是用最先进的方法,而是用对的方法。当整个行业都在讨论"怎么让智能体更智能"时,或许更值得问的是:这个地方真的需要智能吗?
那个金融客户后来给我发了个截图。他们的账单查询接口,最终版本是27行Python,平均响应12毫秒。用户满意度评分,比智能体版本高了0.3分。
理由很朴素:"它每次给的链接都一样,我不用猜。"
热门跟贴