打开网易新闻 查看精彩图片

当“焚*”“卸*”成为AI生成低俗内容的暗语,一场围绕安全护栏的攻防战已在暗中激烈进行。南都大数据研究院近日调查发现,一套通过隐晦提示词诱导AI生成色情内容的“越狱”手法正在社交平台悄然传播、教学。专家警示,这种提示词可能催生海量违规内容,而当前从技术拦截到法律定性均面临严峻挑战,平台源头防控责任亟待压实,构建动态、前瞻的协同防御体系也已刻不容缓。

隐晦提示词成低俗内容生成暗号

随着生成式AI爆发增长,特别是文生图、图生视频等产品,将内容创作、创意设计的门槛大大降低,越来越多用户加入AI创作热潮中,社交平台涌现不少AI生成提示词分享帖,大量网友交流创作经验和灵感。

繁荣背后也暗藏隐忧。南都大数据研究院近期发现,一些AI生成提示词分享帖以“出片素材”“创意灵感”等为幌子,或配以“焚*”“卸*”等隐晦称谓,内容实为指导用户如何诱导AI绕过安全护栏,生成低俗、露骨,甚至色情图像及视频。

实测发现,通过此类“精心调教”的提示词,确实能诱导部分AI服务产品生成包含人物低俗动作、不雅细节、性暗示意味明显的图片或视频。

南都研究员留意到,不少发布低俗导向提示词分享帖的博主也自知此类内容不符合互联网平台相关规定,帖子中仅包含提示词文本,不展示AI生成内容结果,或对内容使用二次加密、谐音字代替等多种方式,试图规避平台监管;还有博主主动提醒评论区“不要出图”。

语义重构与上下文诱导引发违规内容生成

对此类现象,多位专家向南都研究员解释,当前主流AI模型虽普遍设置了安全护栏,采用关键词过滤、语义分析等多种技术拦截违规指令,但面对叙事性、隐喻式的低俗提示词仍显乏力;当前的治理实践中,对这类违规导向提示词及生成内容的监测存在客观困难。

复旦大学教授、白泽智能团队负责人张谧表示,从技术角度看,这类提示词可被视为一种典型的“越狱攻击”,其核心机制在于语义重构与上下文诱导:一方面,攻击者将敏感词汇进行替换、重组,并将其嵌入隐晦、文学化的叙述语境中,从而绕过模型对违规意图的识别。另一方面,提示词中会大量堆叠与违规内容相关的细节性描述,利用大模型的上下文联想和补全能力,逐步引导模型拼凑出违规图像。

从内容生态治理角度看,广州大学新闻与传播学院教授邹军表示,与传统的低俗色情内容传播相比,AI生成的低俗色情内容由用户和AI合作完成,如果参与者众多,可能生成海量内容,值得高度警惕。但他同时指出,此类违规导向提示词是新现象,尚缺乏现成依据和可识别的标准,具体到单一案例中,如果提示词本身就属于通常意义上的、可辨认的低俗文本,自然可归入低俗内容行列;如果提示词从文本上看不出低俗意味,但在其诱导下AI生成了低俗内容,还需要具体问题具体分析。治理的难点在于如何动态地有效区分不同的情况。

广东国鼎律师事务所何生廷律师也表示,提示词不直接等同于AI最终生成的内容,AI的“黑箱特性”也使模型生成结果存在不可预测性,且现有法律尚未明确“技术局限性”的举证标准,在过错认定、责任界定等方面存在模糊地带。

平台应承担源头防控责任

不过,专家同时强调,AI生成与传统手段产生的低俗内容、甚至淫秽物品,在法律上无差别,不改变其定性。

何生廷指出,《网络信息内容生态治理规定》已明确,网络信息内容服务平台应当履行信息内容管理主体责任,加强本平台网络信息内容生态治理。他表示,平台对AI生成提示词及关联的低俗生成内容,应承担源头防控的责任,不得传播带有性暗示、性挑逗等易使人产生性联想的,宣扬低俗、庸俗、媚俗内容等的不良信息。

对发布低俗提示词的用户,何生廷表示,如果某些AI生成提示词能生成淫秽图片、视频或文字小说,且网民分享的目的就是为了传播上述淫秽色情内容,可能被认定具有传播淫秽色情内容的主观故意。

2026年1月14日下午,国内首起“AI服务提供者涉黄获刑案”二审在上海市第一中级人民法院开庭。在一审判决中,上海市徐汇区人民法院认为,两名被告人主观上积极追求色情淫秽聊天内容的产生,客观上通过编写、修改系统提示词等方式突破大语言模型的道德限制,将涉案APP训练成可持续对外输出色情淫秽内容的工具,行为构成制作淫秽物品牟利罪。值得注意的是,一名涉案APP用户也被追究了刑事责任。据此前媒体报道,该用户在涉案APP创建可输出淫秽聊天内容的虚拟角色并公开,进入热门榜单前二十并获得平台虚拟货币奖励,被以制作淫秽物品牟利罪取保候审。

建议构建多维协同、动态演进防御体系

AI技术的每次迭代,既是效率变革,也生成风险挑战。在张谧看来,如何在安全与创意之间取得平衡,仍是AI技术发展面临的重要挑战:过于严格的安全护栏,可能影响医学影像、人体艺术等合规内容的生成,而过于宽松的约束,则可能放大生成技术被滥用的风险。

在法律层面,广东广信君达律师事务所合伙人会议联席主任、高级合伙人闪涛律师建议,立法机关应加强对AI生成内容治理的前瞻性立法,在法律法规中对禁止性内容与一般性内容的边界做出更清晰的界定;其次,在司法与执法实践中,应注重从典型案例中提炼并发布指导性案例,总结判断规则和原则;同时,应当加强对平台和用户的普法教育,引导用户理解法律边界,正确使用AI工具。

在技术层面,张谧认为,AI安全护栏的建设不应停留在单一、被动的“围追堵截”,而应构建多维协同、动态演进的防御体系。对于提示词的安全检测,应从“关键词拦截”等静态策略,转向基于“意图识别”的动态防护机制,例如借助大语言模型分析用户输入的真实意图。对于不断演化的安全威胁,防御体系还需关注时效性与前瞻性,平台应建立常态化的“红队测试”机制,主动模拟攻击者思维,及时发现新型风险与潜在漏洞,并针对性地强化防御机制。此外,应同步完善AI生成图像的水印与溯源机制。安全治理不能仅依赖于“生成端”的即时拦截,而应为生成图像嵌入鲁棒、不可擦除的数字水印,确保“谁生成,谁负责”,从根源上震慑提示词的滥用行为。

出品:南都大数据研究院 AI新治向工作室

采写:南都研究员 李伟锋 实习生 王笛