打开网易新闻 查看精彩图片

做Demo时丝滑的AI Agent,量产环境能把你逼疯。过去半年,一位持续部署Agent的工程师踩完所有坑,发现测试环境和生产环境的差距,堪比玩具车和真车上高速。

第一种叫「上下文漂移」。Agent运行几十轮对话后,内部状态堆满历史垃圾,决策开始「发飘」——不是崩溃,是微妙的离谱。解法不是加更多上下文,而是设置硬边界和定期重置。

打开网易新闻 查看精彩图片

第二种更阴险:验证器假装在工作。你加了输出检查,测试全绿,上线后用户却反馈连环翻车。「验证器通过了所有测试,但没抓到任何真正的边缘情况。」这位工程师的原话。对抗性测试是唯一解药——主动喂垃圾数据,看它能不能吐出来。

第三种是无限重试黑洞。一个工具挂了,Agent换参数再试,再挂,再烧预算。有些失败根本不可恢复,需要熔断机制和人工兜底,而不是让机器死磕。

打开网易新闻 查看精彩图片

第四种「身份碎片化」:多个Agent会话从同一配置出发,几小时后行为逐渐分叉,像同卵双胞胎越长越不像。必须定期跑回归测试,确认它还记得自己是谁。

最后一种最疼:某周成本暴涨50倍,才发现Agent卡在重试循环里疯狂烧钱。硬成本天花板和会话上限,比事后看账单有用得多。

这五种死法的共同病根——把Agent当普通软件养。普通软件死得 predictable,Agent死得 surprise。那位工程师的观察是:活下来的团队,都是先假设会崩,再建系统抓崩。