姚顺雨在腾讯首个研究：在“上下文”这事上，在座的各位都不及格|context|上下文|姚顺雨|数据源|新论文|知名企业|腾讯|调用|预训练

来源：市场资讯

（来源：硅星人）

作者｜周一笑

邮箱｜ zhouyixiao@pingwest.com

2025年4月，还在OpenAI的姚顺雨发了一篇博文《The Second Half》，提出一个判断：AI进入下半场了，接下来比的不是谁模型更大，而是谁能更好地定义问题。

半年后他加入腾讯。又过了两个月，他主导的第一个研究成果发布了。这个成果并未推出新模型，它直接抛出了一个数据，GPT-5.1在一项新测试中只拿到了23.7%。

测试的设定很简单，把所有需要的信息都放在上下文里，让模型去完成任务。考的是模型能否从眼前的材料里学会新东西。

结果是模型看了，但没学会。

没法作弊的考试

这篇论文叫CL-bench，全称Context Learning Benchmark，2026年2月3日由腾讯混元团队和复旦大学联合发布。作为项目负责人，姚顺雨排在作者列表的最后一位。

Context Learning不是新概念，但这篇论文对它的定义极为苛刻，模型必须从上下文中学习到预训练阶段不存在的新知识，并正确应用。简单说，要让模型现场学会它没见过的东西，不只是“回忆”它以前见过的内容。

为了实现这个目标，研究团队在数据构建上下了狠功夫。

目前业界防止数据污染最常见的做法比较简单粗暴，设定时间切割点（比如只考2024年以后的新闻）、把题库藏起来不公开、或者用算法去重。CL-bench做的完全是另一回事，它在“造物”。

研究团队组织了一批领域专家，凭空虚构了多个平行宇宙和假知识。比如，他们编造了一部叫《Sol Accord》（索尔协定）的星际法律，在现实中根本不存在，模型不可能在预训练数据里背过相关法条；他们还编造了一个SkyNet无人机SDK，里面的函数名、调用规则全是假的，模型如果用它记忆里的Python知识去写代码，必错无疑。此外，他们还修改了现实世界的内容来创建变体，比如改变历史事件的走向、调整科学定义，并纳入一些极其小众、几乎不可能出现在预训练数据中的长尾内容。

即便是表现最好的 GPT-5.1平均得分也仅为23.7分。

这种通过“反事实”和“全虚构”来构建benchmark的方法，是对抗刷榜最彻底、也是最难的手段。验证效果很直接，在不给任何上下文的情况下，让GPT-5.1直接做这些任务，结果只能做对不到1%。这说明模型确实没见过这些知识，必须从给定的上下文里学。没法作弊，也是通过率只有17.2%的核心原因。

最终，CL-bench包含了500个复杂上下文、1899个任务、31607个验证标准。平均每个上下文的标注耗时约20小时，全部由资深领域专家制作。这个工作量本身就说明了研究团队的野心，他们想造的不是一个刷分榜单，而是一把真正能测出模型“学习能力”的尺子。

四种角色，四场考试

在这场测试中，AI需要扮演四种角色。

有时它是法官，需要依据一部从未见过的虚构法律断案。给它一部长达2.3万字、刚刚生效的新法律，让它判一起真实纠纷。法条全是新的，判例全是新的，模型必须现场阅读、理解、应用。

有时它是程序员，必须用一种全新的语法写代码。比如基于一门新设计的编程语言规范，实现一个带有时间条件终止的周期性程序。模型如果用它记忆里的语法，必错无疑。它必须严格遵守这个"假文档"的规则。

有时它是操作员，需要在一套从未见过的工作流系统里完成任务。按照一份全新的产品手册，一步步执行操作。流程图是新的，术语是新的，约束条件是新的。

最难的时候，它要像科学家一样，面对一堆杂乱的实验数据，自己从头推导规律。比如分析300份原始实验日志，推导关系式并估计共振常数。前三种角色本质上是演绎推理，给你规则让你应用。这一种是归纳推理，让你从数据中自己发现规则。

这四类场景覆盖了大部分真实工作中需要的学习能力：读文档、学规则、照流程、找规律。这也是为什么CL-bench的结果如此令人担忧，如果模型连这些基本的学习任务都做不好，它在真实工作场景中的表现可想而知。

CL-bench的任务类别分布

前沿模型集体翻车

研究团队在CL-bench上测试了十个最先进的语言模型，结果相当惨淡。

平均任务解决率只有17.2%。表现最好的GPT-5.1 (High)也只有23.7%。要知道，所有完成任务需要的信息都已经明确给出了，就在上下文里，模型却在绝大多数任务上失败了。

论文详细分析了失败原因，几个发现值得注意。

忽略或误用上下文是导致失败的主要原因。导致错误的主因往往并非信息缺失，模型对上下文关键细节的忽视才是症结所在。更有意思的是，在许多情况下，模型会倾向于使用它在预训练阶段学到的"老经验"来解决任务，即使上下文明确定义了新的规则、概念或程序，它也不去学习和使用。这就像一个固执的老员工，宁可用自己的老办法，也不愿意看新文档。

长上下文处理和指令遵循是必要但不充分条件。那些难以跨上下文追踪依赖关系或难以精确遵循约束的模型，表现确实更差。但即使是能够处理长输入、可靠遵循指令的模型，仍然在许多任务上失败。这说明上下文学习需要的能力，远不止能处理长文本和能“听话”。

归纳推理远比演绎推理难。在科学家类任务上，模型的表现明显更差，任务解决率通常低于10%，而且结果波动很大。从数据中发现规律，比应用给定的规则要难得多。这或许指向了当前大模型架构的一个根本性局限。

此外，论文还发现，更高的推理强度通常能提升上下文学习效果。比如GPT-5.1在高推理强度设置下，在某些任务上的表现提升了约6%。但其他模型提升有限甚至下降，说明单靠多想一会儿并不够，模型还必须能正确吸收和组织上下文信息。

姚顺雨的预判

2025年4月，姚顺雨在博文《The Second Half》中提出了一个核心观点，AI发展正在从“上半场”进入“下半场”。上半场的主题是如何训练出更强的模型，更大的参数、更多的数据、更强的算力。下半场的主题则变了，如何定义正确的问题，如何评估真正的进步。

他写道，评估将比训练更重要。我们不再只是问“我们能训练出一个能解决X的模型吗”，而是在问“我们应该训练AI去做什么，以及如何衡量真正的进步”。

在一次访谈中，他进一步解释，现在方法的问题已基本解决，真正重要的是，我们要用这个通用方法，解决什么问题？

CL-bench定义了什么问题？它定义的问题是，模型能否从当前上下文中学习？

这个问题之前被忽视了。行业的隐含假设是，只要上下文给到位（context engineering做得好），模型就能完成任务。CL-bench的数据打破了这个假设，给到位，不等于做得对。上下文学习，作为一项基础的模型能力，被严重低估了。

姚顺雨在2024年主导过另一个benchmark，τ-bench（ICLR 2025）。那个测试关注的是Agent能否遵循领域规则、与用户进行多轮交互。CL-bench则更进一步，测的是模型能否从上下文学习新知识。两者共同指向一个判断，真实世界需要的是学习能力，而非做题能力。

CL-bench论文原文有一段话很精准：大语言模型主要依赖“参数化知识”，这是预训练阶段压缩进模型权重的静态记忆。推理时，模型大多调用这些存储的内部知识，而非主动从新输入信息中吸收养分。因此，当前优化的模型擅长推理它们“知道”的事情，但用户需要的是让模型解决依赖于混乱且动态变化的上下文的任务。

行业正在发生什么变化

如果把近几年AI发展的主旋律做个简单梳理，大致是这样的：2024年的主旋律是Scaling，更大的模型、更多的数据、更强的算力；2025年的主旋律是Reasoning，以o1、R1、Deep Research为代表的推理能力提升。

那么2026年呢？CL-bench指向了一个可能的新方向，Context Learning。

从Prompt Engineering到Context Learning的演进路径

有意思的是，西方大厂目前主要在解决另一个问题。Anthropic在2024年底发布了MCP（Model Context Protocol），OpenAI和Google随后跟进，这个协议被称为AI界的USB-C"，目的是让模型更容易接入外部工具和数据源。2025年12月，Anthropic、OpenAI和Block联合成立了Agentic AI Foundation，将MCP捐赠给Linux基金会，推动开源标准化。同月，Anthropic又发布了Agent Skills开放标准，让AI能执行更具体的任务。

这些努力解决的都是如何把context送进模型的问题，如何让模型接入更多数据源，如何让模型调用更多工具，如何让模型执行更复杂的工作流。

CL-bench问的是，送进去之后，模型能学会吗？

Anthropic自己的研究也触及了类似问题。他们在关于context engineering的博文中提到了context rot现象，随着上下文长度增加，模型召回信息的能力会下降。但CL-bench揭示的问题是。即使上下文不长，模型也不一定能“学会”里面的新知识。这是学习能力，与检索无关。

论文在展望部分提到了一个更远的挑战，即使上下文学习能力提升了，它仍然是“会消失的”（ephemeral），上下文窗口清空，学到的东西就没了。下一步的挑战是Memory Consolidation（记忆巩固），如何让从上下文中学到的知识持久化？这可能是2026年之后的新战场。

这对腾讯意味着什么

姚顺雨入职腾讯后主导的第一个研究输出，他选择用一个benchmark重新定义问题。

目前腾讯混元在国内大模型市场的份额并不领先，字节豆包、阿里通义排在前面。在这个局面下，腾讯选择关注一个更基础的问题：模型的学习能力。

这个选择可能和腾讯的业务基因有关。腾讯是社交和游戏巨头，其核心业务本质就是海量的“动态上下文”，聊天记录、游戏状态、用户行为。姚顺雨强调Context Learning，可能是在为腾讯最核心的业务场景打地基，让AI读懂此时此刻的用户，而不是通过预训练读懂过去的用户。

他入职后说过：腾讯To C基因更强，要思考如何让大模型给用户提供更多价值。很多时候需要的不是更大模型、更强的强化学习，而是额外的Context。

这或许才是AI真正进入人类社会的门票，不再做一个博学的旁观者。