2022年底,迪拜一家物流公司找到我,他们的客服机器人已经上线8个月,客户投诉快把邮箱撑爆了。这是个典型的规则驱动系统——关键词匹配、决策树、预设回复,听起来很规整,用起来像在和一台自动售货机吵架。

数据很残酷:67%的对话以用户输入"talk to a human"的某种变体告终。机器人能识别"where is my package",但"any update on my shipment"就懵了,"I haven't received my order"直接触发fallback,"tracking not working"更是查无此意图。4个月写的规则,只覆盖了30个最可预测的问题,剩下的全成了客服部门的加班燃料。

问题出在哪?规则系统像一份精心编排的FAQ剧本,用户却从不按剧本说话。团队花了大量时间穷举"正确问法",但真实人类的表达是发散的、口语化的、带着情绪的。你没法用if-else接住所有"我的东西呢"的100种说法。

那次项目最后转向了检索增强生成(RAG),用向量数据库匹配用户意图,再让大模型生成回复。上线后,转人工率掉到了12%。客户后来跟我说,他们最后悔的不是选了规则系统,而是花了4个月才承认这条路走不通。