Nat Mach Intel | 大模型何时能可靠判断“共情”？|nat|大模型|新论文|方法学|知名企业|维度|英特尔

一键关注，点亮星标 ⭐️ 前沿不走丢！

认知神经科学前沿文献分享

基本信息

Title:When large language models are reliable for judging empathic communication

发表时间：2026.2.11

发表期刊:Nature Machine Intelligence

影响因子：23.9

获取原文：

添加小助手:PSY-Brain-Frontier即可获取PDF版本

引言

这两年，大语言模型（LLMs）在“会不会安慰人”这件事上，已经给出了不少令人意外的表现。无论是心理支持、医疗沟通，还是日常陪伴式对话，很多研究都发现，模型生成的回复常常会被用户评价为“更体贴”、“更能理解人”。

但一个更关键、也更容易被忽视的问题是：模型会说共情的话，是否就等于它真的能稳定识别什么是高质量的共情沟通（empathic communication）？

这个问题并不只是学术上的细抠，而直接关系到现实应用的安全边界。因为一旦模型被用于陪伴、监督、训练或评价，它就不只是“说话者”，还是“裁判”。如果它不能可靠地区分支持性回应与有害回应、表面安慰与真正理解，那么所有围绕“共情能力”的评估、训练和部署，都可能建立在并不稳固的基础上。尤其在情绪脆弱、心理健康或敏感社交情境中，这种误判带来的代价并不小。

这篇论文的价值，就在于它没有继续停留在“模型得分高不高”这种表面比较，而是把问题推进了一步：在人类专家、众包标注者和多个主流大模型之间，究竟谁对共情沟通的判断更稳定？作者选取了4套来自心理学、传播学与自然语言处理领域的评估框架，对200段真实对话进行系统比较，不仅看模型和专家像不像，还进一步追问：哪些维度本来就容易判断，哪些维度从定义上就含糊、主观，因而很难得到可靠结论。

实验设计与方法逻辑

作者从4个共情沟通评估框架中各抽取50段真实对话，共200段，覆盖日常困境、心理健康、家庭冲突与职场压力等情境；随后邀请3位传播学专家进行独立标注，并与原始数据中的众包标注和3个主流大模型的标注结果进行比较。

研究没有把某一组标签直接当作“标准答案”，而是以评分者间一致性（interrater reliability）为核心指标，考察不同框架、不同子维度下，专家之间能否先达成稳定判断，再据此衡量模型到底是在“真正对齐专家”，还是只是在表面上做对了分类。

核心发现

专家一致性不是背景信息

而是判断模型是否可靠的前提

这篇文章首先强调，评估共情并不存在天然客观、毫无争议的“标准答案”。从图1、图2和表2可以看出，专家之间在21个子维度上的一致性差异很大，加权 Cohen’s kappa（weighted Cohen’s kappa, κw）中位数为0.58，有的维度很稳定，有的则明显分歧。也正因为如此，作者提出应先看专家能否在同一框架下稳定达成共识，再讨论模型表现好不好。这一处理把“任务本身是否可被可靠判断”放在了模型评估之前，是全文最关键的方法学转向。

Fig. 1 | Reliability across annotator pairs and subcomponents.

Fig. 2 | Reliability across annotator pairs and frameworks.

大模型在多数维度上已接近专家水平

并明显优于众包标注

在加入框架说明和专家示例后，模型与专家的对齐程度整体较高。论文报告，专家与LLM之间的κw中位数达到0.60，已经非常接近专家彼此之间的中位数；在21个子维度里，有15个维度超过了作者设定的“高一致性”参考线。图1和图2最值得看，因为它们直观呈现出：只要某个维度本身定义较清楚、专家能较稳定判断，LLM往往也能跟上这一水平；相比之下，众包标注与专家的一致性整体明显更低。

不是所有“共情”都一样好判

清晰可观察的维度最稳定

论文最有启发性的一点，是把“模型何时可靠”落到了具体维度上。表2显示，像“鼓励对方继续表达”“提供实际建议”这类带有明确语言线索或行为特征的子维度，专家和模型都更容易达成一致；而像“是否真正理解对方”“是否在做解释性回应”这类需要推断说话者意图或感受状态的维度，一致性就明显下降。换句话说，决定评估质量的，不只是模型能力强不强，更在于量表问的问题是否足够清楚、是否依赖可观察证据。

Table 2 | Interrater reliability across annotator pairs, subcomponents and frameworks

传统分类分数和众包标签

都会让共情评估看起来“比实际更稳”

作者还专门比较了评分者间一致性与F1分数的差异。图3表明，在这种主观、分级、带语境的任务里，F1很容易掩盖真实问题：类别不平衡时，它可能给出看似不错的分数；评分尺度一旦二值化，不同阈值又会导致结果剧烈波动。与此同时，众包标注者在21个子维度中的18个都给出了更高平均分，呈现明显的“共情膨胀”倾向。也就是说，若直接把众包标签或分类得分当依据，研究者可能会高估模型或回应文本的共情质量。

归纳总结和点评

这项研究最扎实的地方，不在于简单宣称“LLM比人强”或“LLM能替代人”，而在于它把共情评估拆解成了更真实的问题：先问任务本身是否可被可靠测量，再问模型能否接近专家。结果显示，在专家本来就能形成较高一致性的维度上，LLM确实已经具备较强的判断能力，而且整体明显优于众包标注。这一发现为“LLM作为评审者（LLM-as-judge）”在情绪支持、陪伴系统和训练反馈中的应用提供了更可信的依据，也提醒我们，未来真正要打磨的，不只是模型，还包括评估框架本身。