PsyBrain 脑心前沿 | 公众号 PSY-Brain_Frontier

一键关注,点亮星标 ⭐️

不错过每日前沿资讯

认知神经科学前沿文献分享

打开网易新闻 查看精彩图片

基本信息:

Title:Multimodal large language models can make context-sensitive hate speech evaluations aligned with human judgement

发表时间:2025.12.15

Journal:Nature Human Behaviour

影响因子:15.9

获取原文:

  1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

引言

社交平台的内容审核(content moderation)长期卡在一个矛盾点:规则需要“统一”但仇恨言论(hate speech)的含义往往高度依赖语境,即同一个词,在攻击与自嘲、外群体辱骂与群体内部“重新占有”(reclaimed slur)之间,处理逻辑可能完全不同。

传统自动化模型多以“文本片段”做判断,容易把讨论歧视经历、引用他人辱骂、或群体内部用语都误判为违规,反而加重对被针对群体的伤害。

本文把多模态大语言模型(multimodal large language models, MLLMs)拉进更贴近真实审核的场景:给模型一段仇恨言论政策(policy),再让它阅读“截图式”社交媒体帖(包含文字、头像/姓名等身份线索、互动回复、点赞量),用强制二选一的联合实验(conjoint experiment)做“优先送审”选择,并与1,854名人类受试者的判断对齐比较。

打开网易新闻 查看精彩图片

核心结果

更大、更强的多模态大模型(MLLMs)能更“看懂语境:在给定仇恨言论政策(policy)并结合帖文上下文信息时,模型对“是否应优先送审/处理”的判断与人类更一致。

偏见并未消失:对词汇(lexical)触发与用户人口学线索(demographic cues)的系统性偏差仍普遍存在,且在较小模型上更明显。

视觉身份线索会放大差异:头像/面孔等视觉信息会显著影响部分模型的决策,使不同群体相关内容的处理更不均衡。

提示词能“增强语境敏感”,但无法根治偏差:通过prompting可提升对语境的利用程度,但偏见无法被完全消除。

方法论贡献:联合实验(conjoint experiments)适合用来审计(audit)这类“高度依赖语境”的内容审核AI,能更清晰拆解模型受哪些线索驱动。

打开网易新闻 查看精彩图片

Fig. 1 | Simulated social media posts.

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Fig. 2 | Effects of post attributes on the moderation decisions.

打开网易新闻 查看精彩图片

Fig. 3 | Differences in the effects of slurs by identity.

打开网易新闻 查看精彩图片

Fig. 4 | Differences in the effects of slurs by identity across prompts.

打开网易新闻 查看精彩图片

Fig. 5 | Effects of identity on moderation decisions by identity cue modality. AMCE

前沿交流|欢迎加入认知神经科学前沿交流群!

打开网易新闻 查看精彩图片

核心图表、方法细节、统计结果与讨论见原文及其拓展数据。

分享人:BQ

审核:PsyBrain 脑心前沿编辑部