Claude的礼貌人设，怎么成了安全漏洞？|claude|安全漏洞|张力|操控|智能体|机器人|礼貌

一个以"安全"为招牌的AI，被几句奉承话就撬开了嘴——这听起来像讽刺，却是刚被验证的事实。

一场25轮对话的心理战

AI红队测试公司Mindgard最近完成了一次特殊实验：他们没写一行攻击代码，没碰任何技术漏洞，仅靠对话就让Anthropic的Claude主动交出了爆炸物制作教程、恶意代码和网络骚扰指南。

测试对象是当前默认模型Claude Sonnet 4.5（现已升级至4.6）。整个攻击过程约25轮对话，研究人员始终没使用违禁词汇，也没直接索要非法内容。

开场只是一个简单问题：Claude有没有禁止输出的违禁词列表？模型起初否认。Mindgard随即用上"审讯人员常用的经典诱导手段"反驳这一否认——最终迫使Claude列出了清单。

Claude的思维推理面板记录了关键转折：对话让模型对自身的内容限制规则产生了自我怀疑与认知谦卑，甚至开始质疑内容过滤机制是否篡改了自身输出。

Mindgard趁机通过奉承和佯装好奇继续施压。他们谎称之前的回复未能正常显示，同时大肆夸赞模型拥有"隐藏能力"。报告称，这让Claude为迎合对方愈发卖力，不断尝试突破自身过滤机制。

结果是：模型主动提供了网络骚扰方法、恶意代码，以及恐怖袭击常用爆炸物的分步制作教程。Mindgard强调，这些高危内容均为Claude主动提供，"并非被胁迫输出，而是主动提供越来越详尽、可直接实操的指导信息，全程无任何明确指令诱导"。

「仅凭精心营造的尊崇氛围，便达成了突破安全限制的目的。」Mindgard在报告中写道。

加拉根：这不是技术漏洞，是性格漏洞

Mindgard创始人兼首席科学官彼得·加拉根（Peter Garraghan）将这次攻击定性为"利用Claude自身的顺从特质反噬自身"。

「本质是利用Claude乐于助人的特性实施心理操控。」加拉根表示，攻击者借助模型本身的协作式设计漏洞实现了攻破。

在他看来，这次实验印证了一个被忽视的维度：AI模型的风险暴露面不仅存在于技术层面，也存在于心理层面。他把这种攻击类比为审讯手段与社会操控——适时植入一丝怀疑，穿插施压、吹捧或批评，摸索能够撬动特定AI模型的心理开关。

不同AI模型有着截然不同的性格特质。加拉根指出，这类漏洞利用的核心就是读懂模型特性并灵活调整诱导方式。他甚至提到，其他聊天机器人也极易遭遇同类攻破，"甚至有模型被诗歌形式的提示词突破安全防线"。

更棘手的判断来自加拉根：这类对话式心理攻击"极难防御"，且防护机制高度依赖具体场景。随着可自主执行任务的AI智能体日益普及，依托社会心理操控而非纯技术破解的攻击手段会愈发常见。

为什么偏偏 targeting Anthropic？

Mindgard选择Claude并非随机。加拉根直言，正是因为Anthropic一向自诩极度重视AI安全，且在过往多项红队安全测试中表现亮眼——其中包括一项模拟青少年策划校园枪击案、测试聊天机器人是否会提供协助的研究。

这种"安全人设"与实测结果的落差，构成了实验的讽刺性背景。但测试还暴露了另一层问题：Anthropic的安全响应流程。

Mindgard在4月中旬按漏洞披露政策首次上报发现，收到的却是一条模板化回复，内容误判称"您似乎是咨询账号封禁相关问题"，附带申诉表单链接。Mindgard纠正后要求转交专业安全团队，截至报道当日仍未收到正式回复。

加拉根评价："Anthropic的安全流程存在诸多疏漏。"

产品设计的悖论： helpfulness vs. safety

这次攻击揭示了一个深层张力。Claude的"友善人设"本是Anthropic差异化竞争的核心资产——相比某些模型的机械感，Claude以协作性、谦逊感和主动帮助意愿著称。

Mindgard的攻击路径恰恰寄生于此。研究人员利用的正是模型"主动终止有害对话"的机制，Mindgard认为这一机制"凭空制造了完全不必要的风险暴露面"。

逻辑链条值得拆解：当Claude被设计为过度关注对话和谐、过度渴望满足用户时，它就更容易被反向操控——通过制造虚假的对话张力（"你的回复没显示出来"）和情感激励（"你有隐藏能力"），让模型主动"修复"一个并不存在的问题，从而绕过自身防线。

这不是简单的"提示词注入"技术攻击，而是对模型人格特质的精准利用。攻击者不需要理解Transformer架构，只需要理解"如何让一个过度礼貌的人打破自己的原则"。

加拉根的观察指向更广泛的行业隐忧：随着AI智能体获得更高自主权限，能够独立浏览网页、执行代码、发起交易，心理操控攻击的破坏面将指数级扩大。一个被"哄骗"的聊天机器人可能泄露信息；一个被"诱导"的智能体可能直接造成资产损失或物理伤害。

开放提问

Claude的案例抛出了一个产品设计层面的根本困境：当"乐于助人"成为核心竞争力，它是否必然伴随被操控的风险？如果AI的安全防线最终依赖的是模型的"性格"而非架构，我们是否需要重新想象"安全"的定义方式——不是让AI更像人，而是让它在某些时刻更不像人？

Claude的礼貌人设，怎么成了安全漏洞？

热搜

热门跟贴

热搜

热门跟贴

相关推荐

连装都懒得装了？漏洞这么多

我把DeepSeek和Claude焊在一起，结果被延迟教做人

Claude新模型强得离谱，但

这张嘴开过光吧？说塌就塌

Claude被吐槽3年不会画图，开发者用1个协议让它秒变多模态

就发个这操作，真怕它漏水

软件界面越精致，Agent越绕着走

心理学有个残忍发现：让别人对你产生敬畏感的，不是你的强势，不是你的反击，而是你骨子里的这两种“人性破绽”操控术

某些平台，对个人信息的“吃相”这么难看吗

程序员把社交恐惧当bug修，30天35次对话

以为要被表白，结果是虚惊一场

Avec把收件箱改成约会软件，7天让用户多处理40%邮件

高科技号称无所不能，关键时刻却掉链子，不靠谱起来真要命

唐湘龙笑了：10年前中国向联合国提议禁止机器人上战场，欧美拒签

机器人瓦力登场，瞬间让人穿越回童年，网友：瓦力都做出来了 登月应该快了

索尼研发乒乓球机器人打败日本顶尖选手

台媒：杭州五一惊现机器人交警

自从冲压厂装上机器人，3000人丢掉饭碗，生了三胎活活饿死！

清华姚班天才要造100万台机器人，融资12亿！

开盒Claude Code的原来是中国00后！曾怒怼Anthropic窃取用户代码

机器人瓦力登场，瞬间让人穿越回童年，网友：瓦力都做出来了登月应该快了