OpenAI前安全主管：90%企业LLM系统都在裸奔

硅屿手记

2026-04-11 10:20 ·北京

企业扎堆上线大模型客服、AI助手，却没人问过一个问题：这玩意儿能被忽悠瘸吗？传统安全团队还在用扫描SQL注入那套工具查LLM，相当于拿体温计量血压——数值有了，毛病没找着。

AI渗透测试正在从边缘需求变成硬刚需。和常规渗透测试不同，这套玩法要模拟的不是脚本小子，而是会拐弯抹角套话的真人攻击者。测试清单里写着：诱导模型泄露训练数据、绕过内容护栏、通过多轮对话植入恶意指令——全是传统工具测不出来的脏套路。

行业现状相当魔幻。一边是LLM部署量指数级增长，另一边是安全预算还在按传统软件开。某头部云厂商的安全负责人私下吐槽：「客户问得最多的是推理成本，没人问模型会不会被人骗出内部文档。」

攻击面还在膨胀。多模态模型能看图能听语音，输入维度一多，过滤规则就跟不上。有研究团队用一张精心调过的图片，让某主流视觉模型把停车标志认成了限速牌——这在自动驾驶场景里不是bug，是事故。

目前提供AI渗透测试服务的厂商分两类：老牌安全公司匆忙补课，原生AI安全团队趁乱抢滩。企业采购时的经典困境是：前者不懂模型，后者不懂合规。一位刚做完LLM安全审计的CISO说，他们最终选了混合方案——传统团队负责基础设施，AI原生团队专攻提示词注入和越狱攻击。

测试报告里最扎眼的数据：某金融客户的内部知识库模型，在模拟攻击中被诱导泄露了17%的敏感文档摘要。修复方案不是加防火墙，是重写系统提示词——这活儿以前归产品经理管，现在归安全团队。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴