当对话型 AI 服务于数十亿用户时,我们能否看见用户没说出口的那一层?JHU、MIT 和 Google Research 给出了新的解法。
对话型 AI 系统的部署规模已达到前所未有的量级,每天处理数十亿次用户交互。然而,绝大多数现有研究都聚焦于用户「说了什么」,对于用户在对话中「想了什么」这一更深层的维度,仍是一片几乎未被探索的空白。
无论是 WildChat、LMSYS-Chat-1M 这类对话数据集,还是相关的方法和测试基准,它们都将对话文本视为唯一可观测单元 —— 用户未说出口的动机、限制、风格期望以及对回复的真实评价,则被默认丢弃。事实上,由于「最少努力原则」(principle of least effort) 与语用层面的压力,用户写下的提示与他们脑中的真实意图之间存在天然的信息损失:口头表达高效、社交得体、目的导向,却并非内部心理状态的完整呈现。
目前主流的对齐方法大多依赖偏好评分、点赞点踩或基于消息文本的反馈,这些信号难以分辨「哪一部分回答让用户不满意」「为什么不满意」,也无法揭示用户在多轮交互中如何在内心演进自己的目标。因此,一个关键问题浮出水面:
如何在真实的人机对话中,系统性地捕捉用户那些「未言明的思考」,并将其作为新的数据模态用于训练和评估 AI 助手?
近日,一篇来自JHU、MIT 与 Google Research的研究,为这一问题提供了一种解法。
他们提出了ThoughtTrace—— 首个将真实多轮人机对话与用户「自我报告的思考」配对的大规模数据集。这里所说的思考分为两类:用户发送提示前的 reasons(动机、目标、上下文、内容与风格期望等),以及用户读到 AI 回复后的 reactions(满意、对内容、风格或范围的具体不满等)。这些第一人称认知痕迹捕捉了每一次对话背后的隐藏认知层,将「可观测的语句」与「真实的用户意图」之间的鸿沟系统性地填补起来。
在这一框架下,研究人员构建了一个具有以下规模的语料库:
- 1,058 名用户
- 2,155 段多轮对话
- 17,058 次交互轮次
- 10,174 条思考标注
- 覆盖 20 个不同的语言模型(包括 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Preview 等前沿模型,以及若干开源轻量模型)
基于这一数据,作者证明:思考能够将下一条用户消息预测的语义相似度从 21.6 提升至 30.6(相对提升 41.7%),并将基于 Arena-Hard 的对齐胜率提升 25.6%。这为后续 RL、DPO 等训练范式提供了一种全新的、ground-truth 级别的监督信号。
- 论文标题:ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
- 论文链接:https://arxiv.org/abs/2605.20087
方法概览
为了让用户在自然对话中诚实地外化自己的思考,作者通过 Prolific 招募参与者,并设计了一套四步的采集流程:
- 知情同意:参与者签署知情同意书,明确自愿参与与可随时退出的权利。
- 教程与测验:通过引导式教程学习聊天界面、标注思考,并通过简短的理解测验后才进入正式环节。
- 带思考标注的对话:参与者自行设定两个开放式任务,自由地与 AI 多轮交流;在每条用户消息上标注 reason、在每条 AI 回复上标注 reaction。用户可以随时开启新对话或结束任务,且标注对 AI 完全不可见。
- 任务后调查:完成任务后描述自己实际完成了什么、对 AI 有什么期望,并填写涵盖年龄、性别、教育、职业、AI 使用频率与主要用途的问卷。
每条 ThoughtTrace 记录对应一段完整的对话,按时间戳保存所有用户消息、AI 回复以及附着其上的思考。其中 reason 来自 7 种类型之一,reaction 来自 5 种类型之一,每条思考都带有自己的时间戳与文本内容。
视频链接:https://mp.weixin.qq.com/s/fxYJRiIsVNbVHO3HMZ9TEQ?click_id=18
数据特性
作者从两个维度刻画 ThoughtTrace:对话层面和思考层面。
对话层面有三大特性:
- 代表性的用户群:覆盖 18 至 65+ 各年龄段、多种教育水平与职业身份,AI 使用频率从「从未」到「每日多次」,符合频繁 AI 用户的人口画像。
- 长程、多元的对话:ThoughtTrace 的对话中位数为 8 轮,而 WildChat 与 LMSYS-Chat-1M 都是 2 轮;话题分布跨越 7 个大类、36 个细分子主题,没有单一类别占主导。
- 任务延伸主导:57.0% 的用户消息属于「在已有任务上扩展、深化、迭代」,远超新请求 (12.5%)、重试 (2.9%) 和变体 (2.3%),且这种延伸模式随对话进展而愈发显著。
思考层面则呈现四个关键性质:
- 思考与消息显著不同:嵌入空间可视化与基于 LLM 的语义覆盖打分均显示,用户消息对其背后 reason 的覆盖度仅 3.22 (1–5 分制),对前一轮 reaction 的覆盖度仅 2.00—— 对话文本远不能完整复现用户的内心活动。
- 思考对前沿 LLM 而言难以推断:让 GPT-5.4、Gemini 3.1 Pro Preview、Claude Opus 4.6 从对话上下文中推测用户的 reason 与 reaction,三模型平均得分仅为 2.93 和 2.54,介于「极少重叠」与「部分重叠」之间。
- 思考内容高度多元:7 种 reason 涵盖 Task Motivation & Goal (36.9%)、Task Continuation (21.4%)、Context Grounding & Constraints (13.1%)、Content Expectation (11.5%)、Task Reorientation (11.1%)、Style Expectation (5.0%) 和 Social and Others (1.0%);5 种 reaction 包括 Explicit Affirmation (72.2%)、Content Relevance (11.9%)、Presentation Style (6.4%)、Scope Fit (6.1%)、Partial Satisfaction (3.4%)。
- 思考随对话阶段动态变化:Task Motivation 主导早期,Task Continuation 在中后期占主导;Explicit Affirmation 从早期 67% 上升至晚期 79%,反映对话向令人满意的回答收敛。这种动态独立于话题或长度,仅与对话阶段和多轮关系相关。
实验结果
为了验证这些「内心思考」是否真能用于下游建模,作者设计了两组关键实验,分别考察 thoughts 在推理时和训练时的价值。
实验一:Thoughts Predict User Behavior
让 LLM 预测用户的下一条消息 —— 分别在「仅有对话历史」与「历史 + 用户思考标注」两种条件下,评估三个前沿模型,并使用随机抽取的另一个模型作为 LLM judge 评判 0–100 分的语义相似度。
仅仅向模型提供用户的内心思考,平均预测分数从 21.6 跃升到 30.6,相对提升 41.7%。Opus 4.6 的提升尤为显著,单独提升 14.2 个点。这说明 ThoughtTrace 中的 reason 与 reaction 提供了对话历史所不具备的、能够预示用户未来行为的可执行信号 —— 这一发现对构建高保真用户模拟器、面向用户主动协助的智能体均有直接价值。
实验二:Thoughts Improve Model Alignment
作者直接利用 ThoughtTrace 的 reaction 标签定位「用户实际不满意的回复」,再用对应的思考内容指引模型重写,形成 thought-guided rewrites;将其与原始消息配对,在 Qwen3.5-4B 上进行 DPO 训练,于 Arena-Hard 上评估。
- 相较基础模型,思考引导版本在风格控制胜率上提升 25.6%;
- 相较 WildChat 基线,提升 6.6%;
- 同样在 ThoughtTrace 上,思考引导比消息引导高 4.5%,表明思考承载着比消息更丰富的不满与修正信号。
更值得关注的是,思考能从同一批对话中识别出 1,000 条不满意实例,而仅依赖消息只能挖出 450 条,前者是后者的 2.2 倍,证明了思考天然提供了更密集的监督。这意味着 thoughts 不仅告诉我们「哪一条回答用户不满意」,还直接说明「应当如何修正」,把响应识别和响应修正两件事统一进了同一条监督信号。
结语
作者将 thoughts 定位为人机交互研究的一种新数据模态:它捕捉用户的潜在认知,难以从语句中复原,跨越多种内容形态,并随对话阶段动态变化。无论是用户行为预测、模型对齐,还是未来的奖励建模、On-Policy Distillation 等在线学习范式,思考都提供了消息文本所无法替代的细粒度信号。
ThoughtTrace 由此打开了三条新的研究方向:(1)用户建模 —— 系统研究人机交互中的动态心理过程;(2)模型训练 —— 把思考作为新的监督信号,用于训练真正理解用户潜在目标与偏好的助手;(3)评估 —— 构建以思考为中心的基准,把评估从表面语句推进到潜在意图与主观体验。
正如论文所言,ThoughtTrace 将用户思考确立为研究人机交互背后认知动力学的一种基础信号,也为构建真正理解用户「潜在目标、偏好与需求」的下一代 AI 助手,铺设了一条新的研究路径。
更多内容请参阅论文原文与项目主页。
热门跟贴