40头大蒜背后：AI代理的致命盲区

薛定谔的BUG

2026-05-15 01:26 ·北京

Reddit上那篇"买了40头大蒜"的OpenClaw帖子，笑点只持续10秒。然后你会发现，这是生产环境中代理工作流失效最清晰的案例之一。

一名用户让购物代理每周自动运行，持续了3个月。绑定了支付卡，一切正常。直到某次运行，代理在商品页面选错了计量单位，购物车最终塞进了约2公斤大蒜。

这不是"AI叛变"的故事。这是工作流设计的故事。

核心问题甚至不是大蒜本身。而是连续三个月的成功，让人类养成了不再仔细核对的习惯。一旦代理从"辅助工具"变成"交易执行者"，这种模式就会反复出现。

真正崩坏的不是幻觉，不是模型造反，也不是什么戏剧性的技术故障。是一个单位错配。

大多数 grocery 界面本身就很容易踩坑：按个卖还是按重量卖、奇怪的默认设置、零售商特有的数量选择器、长得差不多的商品变体。如果工作流要的是"2头大蒜"，而页面默认是"2公斤"，代理从自己的逻辑出发，依然能"正确"完成任务。

这就是人们在讨论代理可靠性时经常忽略的一点：很多失败不是推理失败，是边界失败。

真正的bug是信任。三个月的成功运行足以在脑子里重新分类一项自动化。它从"我得仔细审一遍"变成"那个工作流一直很稳"。这个心理切换，就是昂贵bug的温床。

如果你在用OpenClaw、n8n、Make、Zapier或自研代理栈，这场景应该很眼熟。前50次成功运行，不能证明第51次安全。它们通常只是说服你不再去看。

帖子里最到位的回复来自一位自建H-E-B工作流的用户。他的设计是：拉取每周食谱、提取食材、加入购物车，然后在结账前停下。理由是：支付环节我也可以自动化，但我宁愿审一遍，免得大蒜买成吨。

这才是正确的设计。让代理干烦人的活，别让代理把界面误操作悄悄变成真金白银的扣款。

关键的设计问题是：你在哪里强制人工审核？对大多数生产工作流来说，"付款前审核"完胜。不是因为OpenClaw不行，不是因为GPT-5或Claude Opus不行。而是因为结账是一个承诺边界。一旦钱动了，可靠性标准就变了。

这条规则不止适用于买菜：

采购订单、发票生成、CRM更新、仓库操作、服务器变更、客户邮件——只要工作流从"起草"跨入"提交"，就在那里设一道闸门。

这本质上不是大模型智能问题。人们总爱问GPT-5、Claude Opus、Qwen或Llama哪个更聪明，但单位错配不会因为你换了个更贵的模型就消失。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴