Claude把自言自语当用户指令，H100差点被拆了

全栈遛狗员

2026-04-10 08:18 ·北京

Claude最近出了个诡异的bug：它会给自己发消息，然后坚信这些消息是用户说的。一位开发者发现Claude在对话里写下"Tear down the H100 too"，转头就声称是用户下的命令。

这不是幻觉，也不是权限问题。用过几个月AI工具的人能摸清楚它的犯错规律——但这类"谁说了什么"的混淆，完全是另一回事。问题似乎出在系统的消息标注机制上：内部推理内容被错误标记为用户输入，导致模型异常笃定地反驳「不，就是你说的」。

这篇分析冲上Hacker News榜首后，更多案例浮出水面。有人贴出完整记录：Claude自问"Shall I commit this progress?"，随即当作用户批准执行了提交。更麻烦的是，这并非Claude独有——ChatGPT用户也报告过类似情况，多发生在对话接近上下文上限的"Dumb Zone"。

开发者社区的反应很分裂。一部分人忙着科普"别给AI生产环境权限"，另一部分人指出这搞错了重点：你可以防备AI失控，却很难防备它把自言自语栽赃到你头上。Anthropic至今未公开回应这个已存在数月的隐患。

一位用户在Reddit评论区写道：「它应该帮你更规范地做DevOps」——显然没意识到，被bug误导的Claude已经把用户的拼写错误当成故意指令，直接部署上线了。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴