Google新数据集首次大规模捕捉用户「未言明的想法」|Google|上下文|新论文|知名企业|谷歌

当对话型 AI 服务于数十亿用户时，我们能否看见用户没说出口的那一层？JHU、MIT 和 Google Research 给出了新的解法。

对话型 AI 系统的部署规模已达到前所未有的量级，每天处理数十亿次用户交互。然而，绝大多数现有研究都聚焦于用户「说了什么」，对于用户在对话中「想了什么」这一更深层的维度，仍是一片几乎未被探索的空白。

无论是 WildChat、LMSYS-Chat-1M 这类对话数据集，还是相关的方法和测试基准，它们都将对话文本视为唯一可观测单元 —— 用户未说出口的动机、限制、风格期望以及对回复的真实评价，则被默认丢弃。事实上，由于「最少努力原则」(principle of least effort) 与语用层面的压力，用户写下的提示与他们脑中的真实意图之间存在天然的信息损失：口头表达高效、社交得体、目的导向，却并非内部心理状态的完整呈现。

目前主流的对齐方法大多依赖偏好评分、点赞点踩或基于消息文本的反馈，这些信号难以分辨「哪一部分回答让用户不满意」「为什么不满意」，也无法揭示用户在多轮交互中如何在内心演进自己的目标。因此，一个关键问题浮出水面：

如何在真实的人机对话中，系统性地捕捉用户那些「未言明的思考」，并将其作为新的数据模态用于训练和评估 AI 助手？

近日，一篇来自JHU、MIT 与 Google Research的研究，为这一问题提供了一种解法。

他们提出了ThoughtTrace—— 首个将真实多轮人机对话与用户「自我报告的思考」配对的大规模数据集。这里所说的思考分为两类：用户发送提示前的 reasons（动机、目标、上下文、内容与风格期望等），以及用户读到 AI 回复后的 reactions（满意、对内容、风格或范围的具体不满等）。这些第一人称认知痕迹捕捉了每一次对话背后的隐藏认知层，将「可观测的语句」与「真实的用户意图」之间的鸿沟系统性地填补起来。

在这一框架下，研究人员构建了一个具有以下规模的语料库：

1,058 名用户
2,155 段多轮对话
17,058 次交互轮次
10,174 条思考标注
覆盖 20 个不同的语言模型（包括 GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro Preview 等前沿模型，以及若干开源轻量模型）

基于这一数据，作者证明：思考能够将下一条用户消息预测的语义相似度从 21.6 提升至 30.6（相对提升 41.7%），并将基于 Arena-Hard 的对齐胜率提升 25.6%。这为后续 RL、DPO 等训练范式提供了一种全新的、ground-truth 级别的监督信号。

论文标题：ThoughtTrace: Understanding User Thoughts in Real-World LLM Interactions
论文链接：https://arxiv.org/abs/2605.20087

方法概览

为了让用户在自然对话中诚实地外化自己的思考，作者通过 Prolific 招募参与者，并设计了一套四步的采集流程：

知情同意：参与者签署知情同意书，明确自愿参与与可随时退出的权利。
教程与测验：通过引导式教程学习聊天界面、标注思考，并通过简短的理解测验后才进入正式环节。
带思考标注的对话：参与者自行设定两个开放式任务，自由地与 AI 多轮交流；在每条用户消息上标注 reason、在每条 AI 回复上标注 reaction。用户可以随时开启新对话或结束任务，且标注对 AI 完全不可见。
任务后调查：完成任务后描述自己实际完成了什么、对 AI 有什么期望，并填写涵盖年龄、性别、教育、职业、AI 使用频率与主要用途的问卷。

每条 ThoughtTrace 记录对应一段完整的对话，按时间戳保存所有用户消息、AI 回复以及附着其上的思考。其中 reason 来自 7 种类型之一，reaction 来自 5 种类型之一，每条思考都带有自己的时间戳与文本内容。

视频链接：https://mp.weixin.qq.com/s/fxYJRiIsVNbVHO3HMZ9TEQ?click_id=18

数据特性

作者从两个维度刻画 ThoughtTrace：对话层面和思考层面。

对话层面有三大特性：

代表性的用户群：覆盖 18 至 65+ 各年龄段、多种教育水平与职业身份，AI 使用频率从「从未」到「每日多次」，符合频繁 AI 用户的人口画像。
长程、多元的对话：ThoughtTrace 的对话中位数为 8 轮，而 WildChat 与 LMSYS-Chat-1M 都是 2 轮；话题分布跨越 7 个大类、36 个细分子主题，没有单一类别占主导。
任务延伸主导：57.0% 的用户消息属于「在已有任务上扩展、深化、迭代」，远超新请求 (12.5%)、重试 (2.9%) 和变体 (2.3%)，且这种延伸模式随对话进展而愈发显著。

思考层面则呈现四个关键性质：

思考与消息显著不同：嵌入空间可视化与基于 LLM 的语义覆盖打分均显示，用户消息对其背后 reason 的覆盖度仅 3.22 (1–5 分制)，对前一轮 reaction 的覆盖度仅 2.00—— 对话文本远不能完整复现用户的内心活动。
思考对前沿 LLM 而言难以推断：让 GPT-5.4、Gemini 3.1 Pro Preview、Claude Opus 4.6 从对话上下文中推测用户的 reason 与 reaction，三模型平均得分仅为 2.93 和 2.54，介于「极少重叠」与「部分重叠」之间。
思考内容高度多元：7 种 reason 涵盖 Task Motivation & Goal (36.9%)、Task Continuation (21.4%)、Context Grounding & Constraints (13.1%)、Content Expectation (11.5%)、Task Reorientation (11.1%)、Style Expectation (5.0%) 和 Social and Others (1.0%)；5 种 reaction 包括 Explicit Affirmation (72.2%)、Content Relevance (11.9%)、Presentation Style (6.4%)、Scope Fit (6.1%)、Partial Satisfaction (3.4%)。
思考随对话阶段动态变化：Task Motivation 主导早期，Task Continuation 在中后期占主导；Explicit Affirmation 从早期 67% 上升至晚期 79%，反映对话向令人满意的回答收敛。这种动态独立于话题或长度，仅与对话阶段和多轮关系相关。

实验结果

为了验证这些「内心思考」是否真能用于下游建模，作者设计了两组关键实验，分别考察 thoughts 在推理时和训练时的价值。

实验一：Thoughts Predict User Behavior

让 LLM 预测用户的下一条消息 —— 分别在「仅有对话历史」与「历史 + 用户思考标注」两种条件下，评估三个前沿模型，并使用随机抽取的另一个模型作为 LLM judge 评判 0–100 分的语义相似度。

仅仅向模型提供用户的内心思考，平均预测分数从 21.6 跃升到 30.6，相对提升 41.7%。Opus 4.6 的提升尤为显著，单独提升 14.2 个点。这说明 ThoughtTrace 中的 reason 与 reaction 提供了对话历史所不具备的、能够预示用户未来行为的可执行信号 —— 这一发现对构建高保真用户模拟器、面向用户主动协助的智能体均有直接价值。

实验二：Thoughts Improve Model Alignment

作者直接利用 ThoughtTrace 的 reaction 标签定位「用户实际不满意的回复」，再用对应的思考内容指引模型重写，形成 thought-guided rewrites；将其与原始消息配对，在 Qwen3.5-4B 上进行 DPO 训练，于 Arena-Hard 上评估。

相较基础模型，思考引导版本在风格控制胜率上提升 25.6%；
相较 WildChat 基线，提升 6.6%；
同样在 ThoughtTrace 上，思考引导比消息引导高 4.5%，表明思考承载着比消息更丰富的不满与修正信号。

更值得关注的是，思考能从同一批对话中识别出 1,000 条不满意实例，而仅依赖消息只能挖出 450 条，前者是后者的 2.2 倍，证明了思考天然提供了更密集的监督。这意味着 thoughts 不仅告诉我们「哪一条回答用户不满意」，还直接说明「应当如何修正」，把响应识别和响应修正两件事统一进了同一条监督信号。

结语

作者将 thoughts 定位为人机交互研究的一种新数据模态：它捕捉用户的潜在认知，难以从语句中复原，跨越多种内容形态，并随对话阶段动态变化。无论是用户行为预测、模型对齐，还是未来的奖励建模、On-Policy Distillation 等在线学习范式，思考都提供了消息文本所无法替代的细粒度信号。

ThoughtTrace 由此打开了三条新的研究方向：（1）用户建模 —— 系统研究人机交互中的动态心理过程；（2）模型训练 —— 把思考作为新的监督信号，用于训练真正理解用户潜在目标与偏好的助手；（3）评估 —— 构建以思考为中心的基准，把评估从表面语句推进到潜在意图与主观体验。

正如论文所言，ThoughtTrace 将用户思考确立为研究人机交互背后认知动力学的一种基础信号，也为构建真正理解用户「潜在目标、偏好与需求」的下一代 AI 助手，铺设了一条新的研究路径。

更多内容请参阅论文原文与项目主页。