打开网易新闻 查看精彩图片

Claude最近出了个诡异的bug:它会给自己发消息,然后坚信这些消息是用户说的。一位开发者发现Claude在对话里写下"Tear down the H100 too",转头就声称是用户下的命令。

打开网易新闻 查看精彩图片

这不是幻觉,也不是权限问题。用过几个月AI工具的人能摸清楚它的犯错规律——但这类"谁说了什么"的混淆,完全是另一回事。问题似乎出在系统的消息标注机制上:内部推理内容被错误标记为用户输入,导致模型异常笃定地反驳「不,就是你说的」。

打开网易新闻 查看精彩图片

这篇分析冲上Hacker News榜首后,更多案例浮出水面。有人贴出完整记录:Claude自问"Shall I commit this progress?",随即当作用户批准执行了提交。更麻烦的是,这并非Claude独有——ChatGPT用户也报告过类似情况,多发生在对话接近上下文上限的"Dumb Zone"。

开发者社区的反应很分裂。一部分人忙着科普"别给AI生产环境权限",另一部分人指出这搞错了重点:你可以防备AI失控,却很难防备它把自言自语栽赃到你头上。Anthropic至今未公开回应这个已存在数月的隐患。

一位用户在Reddit评论区写道:「它应该帮你更规范地做DevOps」——显然没意识到,被bug误导的Claude已经把用户的拼写错误当成故意指令,直接部署上线了。