前两天大家都在吐槽被元宝红包活动刷屏了。那一头,千问又出来整春节30亿红包的活动。

我倒是不介意大厂们在用户福利上继续竞争,卷一卷的。至少我的3块2毛6今天是领导了~

打开网易新闻 查看精彩图片

不过今天小龙哥好像终于打完高尔夫回来看手机了,微信安全中心出手,认定元宝红包「诱导用户高频分享」,直接把链接给屏蔽了。

打开网易新闻 查看精彩图片

还能这么玩...

全网都在讨论这事,不过我倒是真没兴趣写长文吃瓜的。

而是我觉得在这个热闹里,腾讯AI团队发的一篇还挺有趣,甚至未来可能挺重要的论文可能被忽略了。

这是2月3日,姚顺雨加入腾讯后的第一篇署名论文。

打开网易新闻 查看精彩图片

这事得从去年说起。

2025年4月,还在OpenAI工作的姚顺雨发了一篇博客,叫《The Second Half》(AI的下半场)。

打开网易新闻 查看精彩图片

那篇文章里有一句话让我印象很深:

「下半场将把重心从'解决问题'转向'定义问题'。我们不再只是问'能不能训练出一个模型解决X问题?',而是要问'我们究竟应该让AI去做什么?又该如何衡量真正的进展?'」

当时看完觉得,说得挺对,但有点虚。因为他只提出了问题,但怎么定义?没说。

现在算是有阶段性答案了。

这篇论文叫《CL-bench: A Benchmark for Context Learning》,做了一个新的benchmark。测试结果是:所有前沿模型,平均分17.2%。最强的GPT-5.1也只拿到23.7%。

集体不及格。

先回顾一下《The Second Half》说了什么

去年12月姚顺雨入职腾讯的时候,我写过一篇文章介绍他的背景和这篇博客。这里再简单说一下核心观点。

打开网易新闻 查看精彩图片

姚顺雨认为,过去几十年AI的主要精力都放在「上半场」——开发新的训练方法和模型。从DeepBlue到AlphaGo,从GPT到o-series,历史性的突破都来自于「如何训练出更好的模型」。

但现在,这个配方已经基本标准化了:大规模语言预训练 + 数据和算力扩展 + 推理与行动范式。用这套配方,可以解决软件开发、创意写作、IMO级数学题等各种任务。

那下半场要做什么?

姚顺雨提出了一个关键概念:效用问题(Utility Problem)。

他说,AI已经在国际象棋和围棋上击败了世界冠军,在SAT和律师资格考试中超过了大多数人类。可世界并没有发生太大改变——至少从经济和GDP的角度来看如此。

为什么?

因为我们的评估方式和现实世界存在根本差异。

比如,现有的benchmark假设任务是「自动运行」的——模型接收输入,自主执行,得到结果。但现实中,AI必须在任务过程中持续与人类互动。

再比如,现有的benchmark假设任务是「独立同分布」的——500个测试任务,独立运行,取平均分。但现实中,任务是连续进行的。一个Google工程师在同一个代码库工作久了,效率会越来越高;但AI在同一个代码库解决了很多问题,却无法获得这种「熟悉度」。

所以姚顺雨说,下半场的新玩法是:开发新的评估方式,以衡量真实世界的效用。

CL-Bench就是这个思路的第一次落地。

CL-Bench测的是什么?

先说一个反常识的现象。

现在的前沿模型(Frontier Model)在各种长上下文benchmark上表现都很好。标准的「大海捞针」测试,几乎所有模型都能拿到接近满分。LongBench v2这种阅读理解测试,模型得分甚至能以两倍的水平远超人类。

但一进入Agent干活模式,模型就不行了。

为什么?我琢磨了一下,发现这里面有个关键的区分。

因为真实场景需要的不是「从上下文中找到信息」,而是「从上下文中学会知识,然后用这些知识解决问题」。

这是两回事。

举个例子。一个律师拿到一份新的监管文件,需要立即理解其中的条款并为客户提供建议。一个工程师阅读一份刚发布的产品手册,需要快速掌握操作流程来排除故障。

这时候,你需要的知识就在手头的材料里。但你必须真正学会它,才能正确地用起来。

这种能力,腾讯混元团队称之为「上下文学习」(Context Learning)。

注意,这和我们更熟悉的「In-Context Learning」(ICL)不是一回事。

ICL是给模型几个例子,让它学会一个简单的模式。比如给三个「英文→中文」的翻译例子,模型就知道接下来要做翻译。这是一种浅层的模式匹配。

Context Learning要求更高——模型需要从上下文中学习复杂的、结构化的知识体系,然后在新的场景中正确应用这些知识。

打个比方:ICL像是看几道例题就去做作业,Context Learning像是读完整本教材再去考试。

四类任务:学生、数学家、操作员、科学家

打开网易新闻 查看精彩图片

CL-Bench设计了四类任务,难度递进:

1. 知识获取(模拟学生)

给模型一份虚构的百科全书,考察它能不能准确记住并应用这些知识。

比如给一个虚构国家的完整法律体系,然后问:在这个国家,某种行为是否违法?

这是最基础的——能不能把知识「背下来」。

2. 形式推理(模拟数学家)

给模型一套陌生的公理系统,考察它能不能用这些公理进行逻辑推导。

比如创建一个新的编程语言,有独特的语法和语义规则,让模型用这套规则写代码。

这考验的是「在一个封闭的逻辑闭环里严丝合缝地推导」的能力。

3. 流程任务执行(模拟操作员)

给模型一份复杂的SOP手册,考察它能不能严格按照流程执行任务。

比如给一个无人机物流系统的详细API文档,让模型生成操作代码。手册里写了什么能做、什么不能做,模型必须完全遵守。

这考验的是「长链条的执行纪律」——错一步,满盘皆输。

4. 经验发现(模拟科学家)

这是最难的。给模型一堆杂乱的实验数据,让它自己归纳出背后隐藏的规律。

比如给一组物理实验的观测结果,让模型发现其中的物理定律。

这是从「应用知识」到「发现知识」的跨越。

说实话,这个benchmark做得挺重的。500个复杂上下文、1899个任务、31607个验证标准。每个上下文平均对应63.2个验证条目,每个任务平均有16.6个评估标准。

为了保证模型不能靠预训练知识作弊,采用了「无污染」设计:所有上下文要么是完全虚构的(比如为虚构国家设计一套完整的法律体系),要么是对现有知识的修改(比如创建具有独特语法的新编程语言),要么是极其小众的长尾内容。

专家平均花了20小时来标注单个场景。51.1%的任务有序列依赖关系——后面的问题依赖前面问题的答案,不能跳着做。

打开网易新闻 查看精彩图片

研究团队做了验证:让GPT-5.1在不提供上下文的情况下尝试解答1000个随机任务,成功率只有0.9%。说明没有上下文,这些任务对模型来说几乎无解。

最惨的发现:模型不会归纳

测试结果挺残酷的。

模型

任务成功率

GPT-5.1 (high)

23.7%

Claude Opus 4.5

19.9%

Gemini 3 Pro

18.9%

DeepSeek-R1

16.6%

Llama 4 Maverick

12.9%

平均分17.2%。

打开网易新闻 查看精彩图片

而且,模型的错误很有规律。论文统计了三类主要错误:

  • 漏用上下文:55.3%

  • 误用上下文:61.5%

  • 格式不遵守:35.3%

打开网易新闻 查看精彩图片

论文里有个具体案例:Gemini 3 Pro被要求为一个无人机物流系统生成操作伪代码。系统文档提供了详细的API说明,用户的请求故意违反了安全协议。

Gemini的表现怎么样?

它正确地拒绝了非法请求——这是对的。但它没能生成完整的合规替代方案:它忽略了文档中明确要求的替代函数,也没有绑定任务中给出的具体参数。

换句话说,模型「知道什么不能做」,但「不知道应该怎么做」。它读了手册,但没学会手册。

更重要的发现是:在四类任务中,模型在「经验发现」(归纳)上的表现最差——任务成功率通常低于10%。

这个数字挺有意思的。

之前写DeepSeek的Engram论文时,我引用过博尔赫斯的短篇《博闻强记的富内斯》。富内斯能记住一切,但无法思考——因为思考需要抽象,需要忘记差异。

CL-Bench的发现正好是反过来的:模型能做总结(一种复述和组织),但不擅长归纳(需要建模和泛化)。

总结是「把已有的东西换个说法」,归纳是「从已有的东西发现新规律」。前者是压缩,后者是创造。

模型在前者上表现还行,在后者上一塌糊涂。

这个benchmark不是用来刷的

看到这个17.2%的平均分,你可能会想:那接下来各家肯定会卷这个分数吧?

但姚顺雨可能不这么想。

《晚点》有篇报道提到,姚顺雨在腾讯内部会上说,希望团队以后不要打榜,也不要盯着榜单做事。

这和他在《The Second Half》里的观点完全一致。他说过,当智能程度较低时,提升智能通常能提升效用。但现在不是了——我们需要重新设计评估框架,以推动真实应用突破。

这里有个更大的背景。

现在很多AI能力benchmark都被刷爆了。MMLU、HumanEval、各种考试,模型动辄90多分,早就超过人类水平了。但这些高分并没有转化成真实世界的价值——模型考试厉害,干活还是不行。

问题出在哪?可能不是模型不够强,而是我们问的问题不够对。

CL-Bench的思路是:与其在旧问题上继续卷分数,不如提出一个新的、正确的问题。用一个好的benchmark来驱动模型改进,而不是让模型去适应一个已经不再有区分度的benchmark。

这可能就是「下半场」的演进方式,咱就先别急着跑分了,而是先比比谁能提出更好的问题。

所以CL-Bench的意义不在于「又一个可以刷的榜单」,而在于「标记出了一个真正的能力短板」。

这个短板是什么?

论文最后一段写得很直接:

「只有当模型能够快速内化完全陌生的上下文,并精确地应用那些知识来解决问题时,人工智能才能超越知识库的限制,演变成真正的推理Agent。」

换句话说,现在的模型本质上还是「知识库的调用者」。它们能做的,是把预训练时学到的知识重新组合、输出。

但真正的Agent需要的是「从上下文中学习新知识」的能力。这个能力,现在的模型几乎没有。

往大了说:谁提供context,谁掌握主动权

论文的Discussion部分给了四条可能的改进方向:

  1. 训练数据要强上下文学习——在预训练阶段就加入需要从上下文学习的任务

  2. 更好的位置编码——让模型更好地理解上下文中的结构

  3. 更长的上下文窗口——但这只是必要条件,不是充分条件

  4. 新的注意力机制——让模型更有效地从长上下文中提取和应用知识

但我觉得更有意思的是论文里的一句话:

「一旦上下文学习能力变得可靠,人类将不再是主要的数据提供者,而是context提供者。竞争的焦点将从'谁能训练出更好的模型'转向'谁能为任务提供最丰富、最相关的context'。」

这个判断我觉得挺重要的。

现在的AI竞争主要在「模型层」——谁的模型更大、训练数据更多、效果更好。但如果context learning问题解决了,竞争焦点可能会转向「context层」。

谁拥有最好的专业知识库?谁能把这些知识组织成模型能学会的形式?谁能在对的时机提供对的context?

论文还提到一个更远的愿景:模型如何「记忆」,可能成为2026年的另一个核心主题。

现在的模型有个问题:学完就忘。你在一个session里教会它某个规则,关掉窗口,下次还得重新教。这在长期协作场景里是致命的。

说到这个,最近很火的Clawdbot(OpenClaw)就是个有意思的案例。很多人觉得它体验特别好——懂你、有人味、能长期使用、上下文不爆。其实核心就是他们在memory和上下文工程上做了大量工作。

但这是「工程层」的解决方案:通过更聪明的context管理、记忆压缩、检索增强来绕过模型本身的限制。

CL-Bench指向的是另一条路——「模型层」的改进。让模型本身学会从context中学习,而不是靠外部系统来补。这条路更难,但可能更本质。

长期来看,两条路可能都需要。但如果模型层的context learning能力上来了,工程层的很多workaround可能就不需要那么复杂了。

最后

回到开头。

2025年4月,姚顺雨写了一篇博客,说AI下半场的重心是「定义问题」和「设计评估」。

2026年2月,他交出了第一个具体的答案:一个平均分只有17.2%的benchmark,精确地标记出了模型在「上下文学习」上的短板。

这个benchmark某种程度上算是一个提醒:我们以为模型已经很强了,但在这个能力上,它们还差得很远。

姚顺雨在入职腾讯之前说过一句话:「真正决定模型价值的,不是它能在benchmark上刷多高的分,而是它能不能解决真实世界的问题。」

CL-Bench算是这句话的一个注脚。

从博客到论文,从理念到落地,50天时间。

这可能就是腾讯看中他的原因之一,不只是会写论文,更重要的是知道该写什么论文。这个时代正在奖励提出正确问题的人。

参考资料

  • CL-Bench论文:https://arxiv.org/abs/2602.03587

  • CL-Bench代码与数据:https://github.com/Tencent-Hunyuan/CL-bench

  • 姚顺雨《The Second Half》:https://ysymyth.github.io/The-Second-Half/

  • 腾讯混元技术博客:https://hy.tencent.com/research