上周一个做AI客服的朋友跟我吐槽:他们给大模型加了四层安全检测,结果用户问句话要等8秒才回复。"安全是安全了,但用户全跑光了。"

这不是个例。很多团队在纸面上画的安全架构图很漂亮——LLM过滤器、行为分类器、响应扫描层层层叠加——但上线后才发现,每多一层模型调用,延迟就往上蹿一截。最后为了产品能用,只能偷偷关掉防护。

打开网易新闻 查看精彩图片

真正的问题在于把AI安全当成了提示工程问题,实际上它是系统工程问题:延迟、执行控制、架构隔离、信任边界,一个都不能少。

一个务实的分层防御应该长什么样?底层放轻量级计算过滤器,用规则匹配、关键词检测这些便宜手段先挡住噪音攻击,别让垃圾流量触发昂贵的推理层。中间层做上下文隔离,哪怕模型被攻破,也别让它自动获得执行敏感操作的权限。上层才是LLM-based的语义理解,留给真正需要判断的复杂场景。

关键认知转变:目标不是完美防御,而是让成功的注入攻击影响力有限、执行权限有限、波及范围有限。在生产环境里,韧性比假装不可能被攻破更重要。