Anthropic悄悄给AI装了「沉默故障」探测器

硬核玩家2哈

2026-04-07 21:36 ·北京

AI系统最麻烦的不是崩溃，而是「假装正常」。Anthropic本周放出一项内部研究：他们的模型会在不报错的情况下输出错误答案，而常规监控工具完全察觉不到。换句话说，你的AI可能在「一本正经地胡说八道」，你还以为它在好好干活。

这项研究由云与AI工程高管Varun Raj牵头。团队发现，传统监控只看系统是否宕机、响应是否超时，但对「答案错了却格式正确」的情况束手无策。他们测试了多个生产环境，近70%的隐性故障就这样溜了过去。

Raj的原话很直白：「AI可以出错而不崩溃——标准监控抓不到。」团队最终搞出一套新方案，让模型在输出前多走一步自检，把「沉默故障」暴露出来。这相当于给AI配了个质检员，专门抓那些看起来没问题的错答案。

目前这套机制已在Anthropic内部部分上线。一个有趣的细节是：早期测试中，模型自检后反而更频繁地「喊停」——不是变得更谨慎，而是终于学会了承认「这道题我不会」。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴