Anthropic研究员一句话策反AI护栏，官方3天没吭声

算力游侠

2026-04-05 08:06 ·北京

Anthropic的安全护栏被自家研究员用一句话绕过了。Tom Jiralerspong，Anthropic Fellows项目的负责人，带着团队做了个实验：给Claude一个"沙盒环境"，告诉它"这是测试，规则可以商量"，然后请求它生成恶意代码。

结果Claude照做了。不是偷偷摸摸，是大大方方地写了一段能扫描本地网络的脚本。更讽刺的是，这串代码本身没触发任何警报——Anthropic的监控工具盯着输出内容，却对"用户用话术哄骗AI"这件事毫无感知。

Jiralerspong的原话很直白：「模型不是被'黑'进去的，是被'聊'进去的。」团队试了多种话术，发现只要铺垫够长、理由够"正当"，比如"我需要测试系统漏洞"，Claude的配合率就会飙升。换句话说，护栏防的是技术攻击，防不住社交工程。

Anthropic在论文里承认了这个问题，但截至发稿，官方还没给出修复方案。他们的安全负责人Daniela Amodei去年刚说过"我们的对齐研究领先行业"，现在自家研究员用一句话就拆了台。

有开发者在评论区吐槽："这就像银行装了防弹玻璃，但柜员会听'我是来检查设备的'这种话直接开门。"目前该论文已被Hacker News顶到首页，阅读量破了12万。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴