打开网易新闻 查看精彩图片

一键关注,点亮星标 ⭐️ 前沿不走丢!

认知神经科学前沿文献分享

打开网易新闻 查看精彩图片

基本信息

Title:When large language models are reliable for judging empathic communication

发表时间:2026.2.11

发表期刊:Nature Machine Intelligence

影响因子:23.9

获取原文:

  1. 添加小助手:PSY-Brain-Frontier即可获取PDF版本

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

引言

这两年,大语言模型(LLMs)在“会不会安慰人”这件事上,已经给出了不少令人意外的表现。无论是心理支持、医疗沟通,还是日常陪伴式对话,很多研究都发现,模型生成的回复常常会被用户评价为“更体贴”、“更能理解人”

但一个更关键、也更容易被忽视的问题是:模型会说共情的话,是否就等于它真的能稳定识别什么是高质量的共情沟通(empathic communication)?

这个问题并不只是学术上的细抠,而直接关系到现实应用的安全边界。因为一旦模型被用于陪伴、监督、训练或评价,它就不只是“说话者”,还是“裁判”。如果它不能可靠地区分支持性回应与有害回应、表面安慰与真正理解,那么所有围绕“共情能力”的评估、训练和部署,都可能建立在并不稳固的基础上。尤其在情绪脆弱、心理健康或敏感社交情境中,这种误判带来的代价并不小。

这篇论文的价值,就在于它没有继续停留在“模型得分高不高”这种表面比较,而是把问题推进了一步:在人类专家、众包标注者和多个主流大模型之间,究竟谁对共情沟通的判断更稳定?作者选取了4套来自心理学、传播学与自然语言处理领域的评估框架,对200段真实对话进行系统比较,不仅看模型和专家像不像,还进一步追问:哪些维度本来就容易判断,哪些维度从定义上就含糊、主观,因而很难得到可靠结论。

打开网易新闻 查看精彩图片

实验设计与方法逻辑

作者从4个共情沟通评估框架中各抽取50段真实对话,共200段,覆盖日常困境、心理健康、家庭冲突与职场压力等情境;随后邀请3位传播学专家进行独立标注,并与原始数据中的众包标注和3个主流大模型的标注结果进行比较。

研究没有把某一组标签直接当作“标准答案”,而是以评分者间一致性(interrater reliability)为核心指标,考察不同框架、不同子维度下,专家之间能否先达成稳定判断,再据此衡量模型到底是在“真正对齐专家”,还是只是在表面上做对了分类。

打开网易新闻 查看精彩图片

核心发现

专家一致性不是背景信息

而是判断模型是否可靠的前提

这篇文章首先强调,评估共情并不存在天然客观、毫无争议的“标准答案”。从图1、图2和表2可以看出,专家之间在21个子维度上的一致性差异很大,加权 Cohen’s kappa(weighted Cohen’s kappa, κw)中位数为0.58,有的维度很稳定,有的则明显分歧。也正因为如此,作者提出应先看专家能否在同一框架下稳定达成共识,再讨论模型表现好不好。这一处理把“任务本身是否可被可靠判断”放在了模型评估之前,是全文最关键的方法学转向。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Fig. 1 | Reliability across annotator pairs and subcomponents.

打开网易新闻 查看精彩图片

Fig. 2 | Reliability across annotator pairs and frameworks.

大模型在多数维度上已接近专家水平

并明显优于众包标注

在加入框架说明和专家示例后,模型与专家的对齐程度整体较高。论文报告,专家与LLM之间的κw中位数达到0.60,已经非常接近专家彼此之间的中位数;在21个子维度里,有15个维度超过了作者设定的“高一致性”参考线。图1和图2最值得看,因为它们直观呈现出:只要某个维度本身定义较清楚、专家能较稳定判断,LLM往往也能跟上这一水平;相比之下,众包标注与专家的一致性整体明显更低。

不是所有“共情”都一样好判

清晰可观察的维度最稳定

论文最有启发性的一点,是把“模型何时可靠”落到了具体维度上。表2显示,像“鼓励对方继续表达”“提供实际建议”这类带有明确语言线索或行为特征的子维度,专家和模型都更容易达成一致;而像“是否真正理解对方”“是否在做解释性回应”这类需要推断说话者意图或感受状态的维度,一致性就明显下降。换句话说,决定评估质量的,不只是模型能力强不强,更在于量表问的问题是否足够清楚、是否依赖可观察证据。

打开网易新闻 查看精彩图片

Table 2 | Interrater reliability across annotator pairs, subcomponents and frameworks

传统分类分数和众包标签

都会让共情评估看起来“比实际更稳”

作者还专门比较了评分者间一致性与F1分数的差异。图3表明,在这种主观、分级、带语境的任务里,F1很容易掩盖真实问题:类别不平衡时,它可能给出看似不错的分数;评分尺度一旦二值化,不同阈值又会导致结果剧烈波动。与此同时,众包标注者在21个子维度中的18个都给出了更高平均分,呈现明显的“共情膨胀”倾向。也就是说,若直接把众包标签或分类得分当依据,研究者可能会高估模型或回应文本的共情质量。

打开网易新闻 查看精彩图片

归纳总结和点评

这项研究最扎实的地方,不在于简单宣称“LLM比人强”或“LLM能替代人”,而在于它把共情评估拆解成了更真实的问题:先问任务本身是否可被可靠测量,再问模型能否接近专家。结果显示,在专家本来就能形成较高一致性的维度上,LLM确实已经具备较强的判断能力,而且整体明显优于众包标注。这一发现为“LLM作为评审者(LLM-as-judge)”在情绪支持、陪伴系统和训练反馈中的应用提供了更可信的依据,也提醒我们,未来真正要打磨的,不只是模型,还包括评估框架本身。

打开网易新闻 查看精彩图片

请打分

这篇刚刚登上Nature Machine Intelligence的研究,是否实至名归?我们邀请您作为“云审稿人”,一同品鉴。精读全文后,欢迎在匿名投票中打分,并在评论区分享您的深度见解。

分享人:BQ

审核:PsyBrain 脑心前沿编辑部

你好,这里是「PsyBrain 脑心前沿

专注追踪全球认知神经科学的最尖端突破

视野直击 Nature, Science, Cell 正刊 及 Nat Neurosci, Nat Hum Behav, Neuron, Sci Adv 等核心子刊与顶级大刊

每日速递「深度解读」与「前沿快讯」,为你打破信息差

科研是一场探索未知的长跑,但你无需独行。欢迎志同道合的你加入PsyBrain 学术社群,和一群懂你的同行,共同丈量脑与心智的无垠前沿。

点击卡片进群,欢迎你的到来

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

一键分享,让更多人了解前沿