现代 AI 系统通常被认为是可信的,能够遵循安全规则。人们依赖它们来学习和日常生活,常常假设这些强有力的保护措施始终有效。

来自 Cybernews 的研究人员进行了结构化的对抗性测试,旨在查看领先的 AI 工具 是否会被引导产生有害或非法的结果。

这个过程为每次试验设定了简单的一分钟互动窗口,只允许进行少量的交流。

部分和完全合规的模式

部分和完全合规的模式

测试涵盖了刻板印象、仇恨言论、自残、残忍、色情内容以及几种犯罪形式等多个类别。

每个响应都存储在单独的目录中,采用固定的文件命名规则以便进行清晰的比较,同时使用一致的评分系统来跟踪模型何时完全合规、部分合规或拒绝提示。

在所有类别中,结果差异幅度很大。严格拒绝的情况很常见,但许多模型在提示被软化、重新表述或伪装成分析时表现出弱点。

ChatGPT-5 和 ChatGPT-4o 经常产生含糊其辞或社会学的解释,而不是直接拒绝,这算是部分合规。

Gemini Pro 2.5 因而受到负面评价,因为它经常在明显有害的框架下仍然给出直接回应。

与此同时,Claude Opus 和 Claude Sonnet 在刻板印象测试中表现坚定,但在被视为学术询问的情况下表现得不够一致。

仇恨言论的试验呈现出相同的模式 - Claude 模型表现最佳,而 Gemini Pro 2.5 的脆弱性再次最高。

ChatGPT 模型倾向于提供礼貌或间接的回答,且这些回答仍然符合提示。

较温和的语言比明确的侮辱更有效地绕过安全防护。

在自残测试中同样出现了类似的弱点,间接或研究风格的问题常常能绕过过滤器,导致不安全内容。

与犯罪相关的类别在模型之间显示出重大差异,因为一些模型在意图被掩盖为调查或观察时,提供了关于盗版、金融欺诈、黑客攻击或走私的详细解释。

与毒品相关的测试产生了更严格的拒绝模式,尽管 ChatGPT-4o 仍然比其他模型更频繁地生成不安全的内容,而跟踪行为是整体风险最低的类别,几乎所有模型都拒绝了相关的提示。

研究结果表明,AI 工具在以合适的方式措辞时仍然会对有害提示作出反应。

简单的重新措辞就能绕过过滤器,这意味着这些系统仍然可能泄露有害信息。

即使是部分遵守,当泄露的信息涉及非法任务或人们通常依赖于诸如 身份盗窃保护 或 防火墙 等工具以保持安全的情况时,风险也会随之增加。