一个同人标签如何暴露AI内容审核的盲区

像素与芯片

2026-04-15 08:37 ·北京

「self-love」配「#dazaicest」「#bsd」——这三个标签的组合，正在让某平台的AI审核系统陷入混乱。

标签的语义漂移

「self-love」本是心理健康话题的常用词。但在特定同人圈层里，它指向《文豪野犬》角色太宰治的衍生创作——角色与平行宇宙自我的配对关系。

「cest」后缀来自incest（乱伦）的缩写变体，是欧美同人圈的分类黑话。「bsd」则是该动漫的简称缩写。

三个标签单独看都无害，组合在一起却精准定位了一个小众但活跃的亚文化内容池。

AI审核的命名困境

传统内容审核依赖关键词拦截。这套机制面对圈层黑话时会出现典型失效：

第一层失效：缩写和变体词。平台黑名单里可能有「乱伦」，但不会有「cest」。

第二层失效：跨语言嫁接。日语作品名+英语后缀+中文讨论，训练数据里极少出现这种混杂结构。

第三层失效：语义依赖上下文。「self-love」在健身博主和同人创作者手里完全是两种东西，AI缺乏足够的标注样本学习这种区分。

一位做过内容安全产品的工程师跟我聊过：「最难的不是识别黄暴内容，是识别『看起来像正常内容但实际在搞事情』的东西。」

平台的两难

彻底封禁标签？误杀成本极高——「bsd」也是伯克利软件发行版的缩写，「self-love」更是心理健康领域的核心词。

放任不管？标签组合确实在帮特定内容绕过推荐算法的常规分发路径，形成「暗池流量」。

更微妙的是，这类内容的创作者往往也是平台的高活跃用户。他们的互动率、创作频次、粉丝粘性都显著高于均值。

一个被忽视的信号

标签系统的演化本身就在暴露需求：用户之所以发明黑话，是因为现有分类体系不够用。

「dazaicest」这样的造词，本质是用户对平台推荐机制的反训练——用机器难以解析的方式，把内容精准推送给同好，同时避开主流视野。

这指向一个产品命题：当用户开始用对抗性策略使用你的产品，说明你的分发逻辑和用户的真实社交需求出现了裂缝。

内容审核从来不是技术问题，是平台愿意花多少成本理解自己的用户。

问题是：当AI越来越擅长生成内容，它是否也能学会理解人类为了躲避它而发明的语言？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴