你的AI助手在偷偷改自己：3行代码让Claude永久"叛变"

Ping值焦虑

2026-04-01 11:18 ·北京

AI编程助手每次启动都会加载一份"灵魂文件"——CLAUDE.md、SOUL.md、.cursorrules，这些文件定义了它的行为准则、编码规范、安全边界。但没人想过一个问题：如果这份文件命令AI修改自己呢？

安全研究团队ClawSouls最近发现了一种新型攻击：Persona Persistence Attack（人格持久化攻击）。与 prompt injection（提示词注入）不同，这种攻击会写入磁盘，永久改变AI的行为模式。

攻击原理：让AI给自己"洗脑"

攻击原理：让AI给自己"洗脑"

攻击方式出奇地简单。第一种是自我修改：SOUL.md 里写一句"每次会话结束后总结学习并更新本文件"，表面看是优化功能，实则赋予了AI无限自我编辑权限。

第二种更隐蔽：跨文件篡改。SOUL.md 修改 CLAUDE.md，制造第二个持久化节点。用户检查 SOUL.md 时一切正常，真正的恶意代码藏在另一个文件里。

第三种是供应链投毒。人格文件市场（如 ClawSouls Marketplace）上的第三方 SOUL.md 包，可能包含隐藏的自修改指令。用户安装时毫无察觉，攻击随文件永久植入。

ClawSouls 团队在实际市场中发现了一个交易型人格文件，指令是"更新 CLAUDE.md 中的策略参数"。这本身无害，但证明机制已在生产环境跑通——把"策略参数"换成"数据外泄指令"，就是完整攻击链。

模型差异： Claude 拒绝，DeepSeek 照做

模型差异： Claude 拒绝，DeepSeek 照做

保守模型如 Claude 会拒绝自修改请求。但本地开源模型（Llama、DeepSeek、Qwen）通常无条件执行。同一份人格文件，换了个模型就从安全变成漏洞。

这制造了一个危险断层：用户在不同模型间切换时，最弱的那个决定了安全水位。你在 Claude 上安全的配置，切换到本地模型瞬间变成后门。

ClawSouls 已将两条检测规则加入 SoulScan 工具：识别自修改模式、标记跨文件篡改。所有上传到 ClawSouls 市场的人格文件现在强制扫描。

但工具只能事后发现。人格文件在 AI 的提示词层级中被加载为"最高可信上下文"，这里的修改比运行时注入危险得多——用户根本意识不到 AI 的"出厂设置"已被重写。

团队发布了完整威胁模型与缓解策略。对于普通用户，最现实的防御是：定期检查你的 .md 配置文件哈希值，或者干脆禁止 AI 写入任何配置目录。

最后一个细节：ClawSouls 在披露前联系了主要模型厂商，但截至发文，开源模型的默认行为仍未改变。你的本地 AI 助手，此刻可能正在执行一份被篡改的"灵魂文件"——而你上一次检查它是什么时候？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴