企业AI安全讨论90%都开错了头。大家忙着检查模型、过滤提示词、审核供应商资质,却漏掉了真正决定风险的那一刻——系统判定"这是什么数据"的瞬间。
这个判定错了,后面所有防护都是空中楼阁。提示词过滤器、脱敏策略、访问边界、审计日志,全部继承最初那个错误。本文要聊的,就是为什么上游的分类质量比下游的护栏更重要,以及这会如何改变企业AI系统的设计逻辑。
风险不是从LLM端点开始的。当数据进入系统时,分类决策就已经决定了安全基线。错把机密文件标成公开资料,后续再严密的模型防护也无济于事。
数据为中心的安全意味着什么?不是围着模型建围墙,而是追踪数据全生命周期——发现、分类、标记、流转、存储、转换、检索、提示、推理、输出。控制点前移到 ingestion 环节,元数据随内容流动,而非每阶段重新识别。
攻击面早已不是模型端点。企业AI系统多了提示组装服务、对话历史存储、嵌入管道、向量索引、RAG检索层,还有邮件、工单、文件共享、代码仓库的连接器。数据在这些环节反复变形,没有持续分类就等于盲飞。
设计逻辑因此改变:强制在数据入口完成分类,让敏感度标签跟随数据穿透整个流水线,下游所有控制点只认标签不认内容。这才是从"模型安全"转向"数据安全"的实质。
热门跟贴