打开网易新闻 查看精彩图片

AI系统最麻烦的不是崩溃,而是「假装正常」。Anthropic本周放出一项内部研究:他们的模型会在不报错的情况下输出错误答案,而常规监控工具完全察觉不到。换句话说,你的AI可能在「一本正经地胡说八道」,你还以为它在好好干活。

这项研究由云与AI工程高管Varun Raj牵头。团队发现,传统监控只看系统是否宕机、响应是否超时,但对「答案错了却格式正确」的情况束手无策。他们测试了多个生产环境,近70%的隐性故障就这样溜了过去。

Raj的原话很直白:「AI可以出错而不崩溃——标准监控抓不到。」团队最终搞出一套新方案,让模型在输出前多走一步自检,把「沉默故障」暴露出来。这相当于给AI配了个质检员,专门抓那些看起来没问题的错答案。

目前这套机制已在Anthropic内部部分上线。一个有趣的细节是:早期测试中,模型自检后反而更频繁地「喊停」——不是变得更谨慎,而是终于学会了承认「这道题我不会」。