OpenAI发布隐私过滤模型，可以本地运行高精度屏蔽个人敏感信息

华尔街见闻官方

2026-04-23 05:29 ·上海 ·华尔街见闻官方网易号

OpenAI推出一款可定制化隐私保护工具"OpenAI Privacy Filter"，能够自动识别并屏蔽文本中的个人身份信息，同时适用于AI模型训练数据的清洗处理。

该模型周三正式发布，可识别姓名、日期、账户号码、信用卡号及电子邮件地址等敏感信息，用户还可根据自身需求和隐私政策对其进行微调。

Privacy Filter最关键的特性在于支持本地运行。待处理的敏感数据无需上传至服务器，可直接在设备端完成脱敏，从而降低数据在传输过程中的暴露风险。

此次发布被OpenAI定位为"构建更具韧性的软件生态系统"的一部分，其战略意图指向AI开发工具链的底层基础设施。该模型现已在Hugging Face和GitHub上以Apache 2.0许可证开源发布，支持商业部署与二次微调。

OpenAI官网展示的屏蔽效果如下，输出文本相较于输入文本隐去了私人信息：

功能定位：处理非结构化文本中的敏感数据

OpenAI Privacy Filter所针对的是如何有效清洗文本数据中的个人隐私信息。随着企业对AI合规使用的要求日趋严格，此类工具的市场需求正持续上升。

在检测类别上，Privacy Filter覆盖八类标签：私人姓名、私人地址、私人邮箱、私人电话、私人URL、私人日期、账号信息以及密钥/密码。

与传统基于规则的PII检测工具相比，Privacy Filter的核心差异在于上下文感知能力。传统工具依赖固定格式匹配（如电话号码、邮箱格式），难以处理语义模糊或依赖上下文的隐私判断。

Privacy Filter依托预训练语言模型的语言先验，能够区分属于公众信息的实体与涉及私人个体的信息，从而在"该屏蔽什么"的判断上更为精细。

同时OpenAI GTM 团队成员特别提到该模型支持本地运行，待处理的敏感数据无需上传至服务器，可直接在设备端完成脱敏，从而降低数据在传输过程中的暴露风险。

不过，OpenAI在模型说明中明确指出了若干重要局限。Privacy Filter并非匿名化工具，也不等同于合规认证，无法替代高风险场景下的人工政策审核。在法律、医疗、金融等高敏感领域，仍需人工复核与领域专属评估。

开源策略：从产品竞争转向生态布局

此次发布与OpenAI过去数月持续加大开源力度的路径一致，反映出其在商业模式上的多维布局。一方面通过API和ChatGPT等产品直接变现，另一方面通过开放模型和工具巩固开发者生态。

Privacy Filter以Apache 2.0许可证发布，允许免费商业使用和修改，许可条款相对宽松。

OpenAI同步公开了模型架构、标签体系、解码控制机制、评估方案及已知局限等技术文档，以便开发者团队充分了解模型的能力边界。

OpenAI表示，此次发布为预览版，目的是收集研究社区和隐私领域从业者的反馈，并在此基础上进一步迭代模型性能。

其长期愿景是使隐私保护基础设施"更易于检查、运行、适配和改进"，并将Privacy Filter定位为"AI系统应学习世界知识，而非学习私人个体信息"这一原则的技术实践。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴