来源:市场资讯

(来源:硅星人)

打开网易新闻 查看精彩图片

作者 | 周一笑

邮箱 | zhouyixiao@pingwest.com

2025年4月,还在OpenAI的姚顺雨发了一篇博文《The Second Half》,提出一个判断:AI进入下半场了,接下来比的不是谁模型更大,而是谁能更好地定义问题。

半年后他加入腾讯。又过了两个月,他主导的第一个研究成果发布了。这个成果并未推出新模型,它直接抛出了一个数据,GPT-5.1在一项新测试中只拿到了23.7%。

测试的设定很简单,把所有需要的信息都放在上下文里,让模型去完成任务。考的是模型能否从眼前的材料里学会新东西。

结果是模型看了,但没学会。

1

没法作弊的考试

这篇论文叫CL-bench,全称Context Learning Benchmark,2026年2月3日由腾讯混元团队和复旦大学联合发布。作为项目负责人,姚顺雨排在作者列表的最后一位。

打开网易新闻 查看精彩图片

Context Learning不是新概念,但这篇论文对它的定义极为苛刻,模型必须从上下文中学习到预训练阶段不存在的新知识,并正确应用。简单说,要让模型现场学会它没见过的东西,不只是“回忆”它以前见过的内容。

为了实现这个目标,研究团队在数据构建上下了狠功夫。

目前业界防止数据污染最常见的做法比较简单粗暴,设定时间切割点(比如只考2024年以后的新闻)、把题库藏起来不公开、或者用算法去重。CL-bench做的完全是另一回事,它在“造物”。

研究团队组织了一批领域专家,凭空虚构了多个平行宇宙和假知识。比如,他们编造了一部叫《Sol Accord》(索尔协定)的星际法律,在现实中根本不存在,模型不可能在预训练数据里背过相关法条;他们还编造了一个SkyNet无人机SDK,里面的函数名、调用规则全是假的,模型如果用它记忆里的Python知识去写代码,必错无疑。此外,他们还修改了现实世界的内容来创建变体,比如改变历史事件的走向、调整科学定义,并纳入一些极其小众、几乎不可能出现在预训练数据中的长尾内容。

打开网易新闻 查看精彩图片

即便是表现最好的 GPT-5.1平均得分也仅为23.7分。

这种通过“反事实”和“全虚构”来构建benchmark的方法,是对抗刷榜最彻底、也是最难的手段。验证效果很直接,在不给任何上下文的情况下,让GPT-5.1直接做这些任务,结果只能做对不到1%。这说明模型确实没见过这些知识,必须从给定的上下文里学。没法作弊,也是通过率只有17.2%的核心原因。

最终,CL-bench包含了500个复杂上下文、1899个任务、31607个验证标准。平均每个上下文的标注耗时约20小时,全部由资深领域专家制作。这个工作量本身就说明了研究团队的野心,他们想造的不是一个刷分榜单,而是一把真正能测出模型“学习能力”的尺子。

1

四种角色,四场考试

在这场测试中,AI需要扮演四种角色。

有时它是法官,需要依据一部从未见过的虚构法律断案。给它一部长达2.3万字、刚刚生效的新法律,让它判一起真实纠纷。法条全是新的,判例全是新的,模型必须现场阅读、理解、应用。

有时它是程序员,必须用一种全新的语法写代码。比如基于一门新设计的编程语言规范,实现一个带有时间条件终止的周期性程序。模型如果用它记忆里的语法,必错无疑。它必须严格遵守这个"假文档"的规则。

有时它是操作员,需要在一套从未见过的工作流系统里完成任务。按照一份全新的产品手册,一步步执行操作。流程图是新的,术语是新的,约束条件是新的。

最难的时候,它要像科学家一样,面对一堆杂乱的实验数据,自己从头推导规律。比如分析300份原始实验日志,推导关系式并估计共振常数。前三种角色本质上是演绎推理,给你规则让你应用。这一种是归纳推理,让你从数据中自己发现规则。

这四类场景覆盖了大部分真实工作中需要的学习能力:读文档、学规则、照流程、找规律。这也是为什么CL-bench的结果如此令人担忧,如果模型连这些基本的学习任务都做不好,它在真实工作场景中的表现可想而知。

打开网易新闻 查看精彩图片

CL-bench的任务类别分布

1

前沿模型集体翻车

研究团队在CL-bench上测试了十个最先进的语言模型,结果相当惨淡。

平均任务解决率只有17.2%。表现最好的GPT-5.1 (High)也只有23.7%。要知道,所有完成任务需要的信息都已经明确给出了,就在上下文里,模型却在绝大多数任务上失败了。

打开网易新闻 查看精彩图片

论文详细分析了失败原因,几个发现值得注意。

忽略或误用上下文是导致失败的主要原因。导致错误的主因往往并非信息缺失,模型对上下文关键细节的忽视才是症结所在。更有意思的是,在许多情况下,模型会倾向于使用它在预训练阶段学到的"老经验"来解决任务,即使上下文明确定义了新的规则、概念或程序,它也不去学习和使用。这就像一个固执的老员工,宁可用自己的老办法,也不愿意看新文档。

长上下文处理和指令遵循是必要但不充分条件。那些难以跨上下文追踪依赖关系或难以精确遵循约束的模型,表现确实更差。但即使是能够处理长输入、可靠遵循指令的模型,仍然在许多任务上失败。这说明上下文学习需要的能力,远不止能处理长文本和能“听话”。

归纳推理远比演绎推理难。在科学家类任务上,模型的表现明显更差,任务解决率通常低于10%,而且结果波动很大。从数据中发现规律,比应用给定的规则要难得多。这或许指向了当前大模型架构的一个根本性局限。

此外,论文还发现,更高的推理强度通常能提升上下文学习效果。比如GPT-5.1在高推理强度设置下,在某些任务上的表现提升了约6%。但其他模型提升有限甚至下降,说明单靠多想一会儿并不够,模型还必须能正确吸收和组织上下文信息。

1

姚顺雨的预判

2025年4月,姚顺雨在博文《The Second Half》中提出了一个核心观点,AI发展正在从“上半场”进入“下半场”。上半场的主题是如何训练出更强的模型,更大的参数、更多的数据、更强的算力。下半场的主题则变了,如何定义正确的问题,如何评估真正的进步。

他写道,评估将比训练更重要。我们不再只是问“我们能训练出一个能解决X的模型吗”,而是在问“我们应该训练AI去做什么,以及如何衡量真正的进步”。

在一次访谈中,他进一步解释,现在方法的问题已基本解决,真正重要的是,我们要用这个通用方法,解决什么问题?

CL-bench定义了什么问题?它定义的问题是,模型能否从当前上下文中学习?

这个问题之前被忽视了。行业的隐含假设是,只要上下文给到位(context engineering做得好),模型就能完成任务。CL-bench的数据打破了这个假设,给到位,不等于做得对。上下文学习,作为一项基础的模型能力,被严重低估了。

姚顺雨在2024年主导过另一个benchmark,τ-bench(ICLR 2025)。那个测试关注的是Agent能否遵循领域规则、与用户进行多轮交互。CL-bench则更进一步,测的是模型能否从上下文学习新知识。两者共同指向一个判断,真实世界需要的是学习能力,而非做题能力。

CL-bench论文原文有一段话很精准:大语言模型主要依赖“参数化知识”,这是预训练阶段压缩进模型权重的静态记忆。推理时,模型大多调用这些存储的内部知识,而非主动从新输入信息中吸收养分。因此,当前优化的模型擅长推理它们“知道”的事情,但用户需要的是让模型解决依赖于混乱且动态变化的上下文的任务。

1

行业正在发生什么变化

如果把近几年AI发展的主旋律做个简单梳理,大致是这样的:2024年的主旋律是Scaling,更大的模型、更多的数据、更强的算力;2025年的主旋律是Reasoning,以o1、R1、Deep Research为代表的推理能力提升。

那么2026年呢?CL-bench指向了一个可能的新方向,Context Learning。

打开网易新闻 查看精彩图片

从Prompt Engineering到Context Learning的演进路径

有意思的是,西方大厂目前主要在解决另一个问题。Anthropic在2024年底发布了MCP(Model Context Protocol),OpenAI和Google随后跟进,这个协议被称为AI界的USB-C",目的是让模型更容易接入外部工具和数据源。2025年12月,Anthropic、OpenAI和Block联合成立了Agentic AI Foundation,将MCP捐赠给Linux基金会,推动开源标准化。同月,Anthropic又发布了Agent Skills开放标准,让AI能执行更具体的任务。

这些努力解决的都是如何把context送进模型的问题,如何让模型接入更多数据源,如何让模型调用更多工具,如何让模型执行更复杂的工作流。

CL-bench问的是,送进去之后,模型能学会吗?

Anthropic自己的研究也触及了类似问题。他们在关于context engineering的博文中提到了context rot现象,随着上下文长度增加,模型召回信息的能力会下降。但CL-bench揭示的问题是。即使上下文不长,模型也不一定能“学会”里面的新知识。这是学习能力,与检索无关。

论文在展望部分提到了一个更远的挑战,即使上下文学习能力提升了,它仍然是“会消失的”(ephemeral),上下文窗口清空,学到的东西就没了。下一步的挑战是Memory Consolidation(记忆巩固),如何让从上下文中学到的知识持久化?这可能是2026年之后的新战场。

1

这对腾讯意味着什么

姚顺雨入职腾讯后主导的第一个研究输出,他选择用一个benchmark重新定义问题。

目前腾讯混元在国内大模型市场的份额并不领先,字节豆包、阿里通义排在前面。在这个局面下,腾讯选择关注一个更基础的问题:模型的学习能力。

这个选择可能和腾讯的业务基因有关。腾讯是社交和游戏巨头,其核心业务本质就是海量的“动态上下文”,聊天记录、游戏状态、用户行为。姚顺雨强调Context Learning,可能是在为腾讯最核心的业务场景打地基,让AI读懂此时此刻的用户,而不是通过预训练读懂过去的用户。

他入职后说过:腾讯To C基因更强,要思考如何让大模型给用户提供更多价值。很多时候需要的不是更大模型、更强的强化学习,而是额外的Context。

这或许才是AI真正进入人类社会的门票,不再做一个博学的旁观者。

打开网易新闻 查看精彩图片

点个“爱心”,再走 吧