打开网易新闻 查看精彩图片

强化学习改变了模型组织技能的方式,而非简单提升指标。

作者丨郑佳美

编辑丨岑峰

打开网易新闻 查看精彩图片

随着大语言模型规模和预训练强度的不断提升,强化学习在后训练阶段的角色正在发生微妙变化。

一方面,它仍然是当前提升模型推理能力和多步决策表现的关键技术手段;另一方面,越来越多的经验性结果表明,在许多任务上,强化学习带来的性能提升往往难以与“新能力的形成”直接划等号。

尤其是在 pass@k 等评测指标下,强化学习模型与基础模型之间的差距常常随着采样数的增加而迅速缩小,这使得一种观点逐渐占据上风:强化学习可能更多是在对模型内部已有解法进行筛选和重排,而非真正拓展模型的能力边界。

问题在于,这一判断本身并不容易被验证或反驳。自然语言任务中,技能边界高度交织,模型在预训练阶段所接触的数据分布几乎无法完全排除,使得性能变化很难被明确归因于能力结构的改变。在这样的环境下,关于强化学习是否“教会模型新能力”的讨论,往往停留在指标层面的解释差异,而缺乏一个能够清晰刻画技能、控制任务难度并排除干扰因素的实验基础。

正是在这样的背景下,清华大学的孙茂松、刘知远团队提出了《From f(x) and g(x) to f(g(x)): LLMs Learn New Skills in RL by Composing Old Ones》这项研究。

与其继续在复杂的自然语言任务中争论强化学习是否“有效”,研究团队选择退回到一个更可控的实验环境,转而聚焦一个更基础也更根本的问题:强化学习究竟能否教会模型此前并不具备的新能力?如果可以,这些新能力具体是什么,在什么条件下才能被学习到,又是否具有跨任务的泛化性。

在这一问题框架下,研究并未将注意力放在某一具体性能指标的提升上,而是假设模型已经掌握了一组基本的原子技能,进一步考察强化学习是否能够推动模型形成新的能力结构,使其学会系统性地组合这些技能,从而解决更高难度、甚至分布外任务中的问题。正是出于对这些问题的系统性考察需求,研究者才设计了这一高度可控的实验环境。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/pdf/2509.25123

01
当语言模型开始真正「会组合」

研究的实验结果表明,在合适的激励条件下,强化学习能够使大语言模型获得此前并不存在的新能力,而不仅仅是对已有答案进行重排。

这种新能力具体体现为一种系统性的技能组合能力,即模型能够将已经掌握的原子技能按照结构化方式进行组合,并将这一组合策略泛化到更高难度的问题,甚至迁移到完全不同的任务中。

研究中通过设计 20 余个“非常规”字符串操作函数,将「函数结果预测」作为任务。为彻底排除预训练语料污染及模型语义联想(即根据函数名盲猜代码逻辑)的影响,所有函数均采用随机命名的无意义字符串。研究核心在于对比以下两种能力:

原子能力:指模型在不依赖 Prompt 中函数定义的前提下,准确预测单一函数f(x)输出的能力。

组合能力:指模型预测多层复合函数(如 f(g(x)))执行结果的能力。

由于函数随机命名,没有模型具备该任务的原子能力。因此为了单独训练模型在该任务上的原子能力,在数据收集阶段,研究者首先在 Prompt 中提供明确的函数定义以及单函数的输出预测题目,获取模型生成的思维链与预测结果,且仅保留正确样本。

随后在 SFT(监督微调)阶段,研究者移除了 Prompt 中的函数定义,让模型学习原本的思维链与预测结果。通过这种训练方式,模型被强制将函数逻辑内化至参数空间,从而在不查阅定义的情况下掌握“原子能力”,为后续评估复杂的“组合能力”奠定基础。

研究人员在对拥有了原子能力的SFT模型进行强化学习训练,通过改变强化学习阶段提供的题目难度(仅单函数、仅二层嵌套函数、单函数与二层嵌套函数混合),观察模型在三层、四层乃至更深层次的组合问题上的测试性能(这些问题在训练中从未出现过,且所涉及的原子函数本身也未在强化学习阶段见过),研究人员发现仅在单函数上进行强化学习的模型,在三层及以上组合任务上的准确率几乎为零,而一旦训练数据中包含最基础的二层嵌套函数,模型在三层组合上的准确率可提升至约 30%,在四层组合上仍保持约 15%,并在更高层级上持续显著优于随机水平。

这表明模型并非依赖偶然猜测或记忆模板,而是学会了一种可递归使用的组合策略;如果强化学习仅仅激活或重排已有推理模式,这种随组合深度增加仍能发挥作用的行为是难以解释的。

打开网易新闻 查看精彩图片

进一步的对照实验显示,仅提供组合训练数据并不足以产生这种能力。研究团队在完全相同的二层组合数据上,用监督学习替代强化学习进行训练,发现这个模型在三层组合任务上的准确率始终处于极低水平,甚至在同一难度但函数不同的二层组合测试中也表现不稳定。

相比之下,强化学习模型不仅能够稳定解决二层组合问题,还能系统性地外推到更深层的组合任务,说明真正起关键作用的是强化学习所引入的结果驱动、探索机制与策略更新过程,它们共同促使模型形成新的推理结构。

打开网易新闻 查看精彩图片

研究还通过跨任务实验验证了这种组合能力的通用性:如果模型在A、B任务上学习了原子能力,仅在A任务上进行合适的组合能力强化学习,模型就能将该能力泛化至B任务上。在SFT阶段,除了先前提及的函数输出预测任务,研究人员混入了另一个任务,Countdown任务的SFT数据,以使得模型同样具备Countdown任务的原子能力。而在强化学习阶段,仍然只在包含二层嵌套函数的输出预测任务上进行强化学习。

测试结果显示,尽管未在Countdown任务上进行强化学习,仅在复合函数输出预测上进行强化学习后的模型在多步Countdown任务上的表现也取得了明显提升。这表明强化学习获得的并非特定于字符串任务的技巧,而是一种能够组织和调度已有原子技能的通用能力,即一种元技能。然而,这一迁移也是有条件的,在其他任务上学到的组合能力并不能泛化到模型不具备原子能力的任务上,即SFT阶段如果未学习Countdown的原子能力,模型在强化学习后无法完成Countdown任务。

打开网易新闻 查看精彩图片

针对“强化学习只是将 pass@k 压缩为 pass@1”的观点,研究人员进一步分析了不同难度任务下的表现差异,发现这个现象主要出现在简单问题中。在低难度任务上,基础模型本就能够通过多次采样得到正确答案,强化学习的作用确实主要体现为重排。

而在高难度组合任务中,基础模型即使在极大采样预算下仍表现不佳,强化学习模型的优势却随着采样数增加而不断扩大。研究团队据此指出,这种“强化学习只是重排”的结论在一定程度上是一种评测假象。

打开网易新闻 查看精彩图片

最后,错误类型分析表明,强化学习带来的变化并不仅体现在准确率上,而是体现在模型行为结构的根本转变上。基础模型、监督学习模型以及仅进行原子强化学习训练的模型,其主要错误来源于忽略组合结构或误解嵌套关系。

而经过组合任务强化学习训练的模型,其错误更多来自原子步骤的执行失误,而非对整体组合结构的误解。这说明强化学习首先教会模型正确理解和执行组合结构,即使失败,也失败在更低层级,从而体现出一种认知层面的变化。

打开网易新闻 查看精彩图片

02
从模糊能力到可量化技能

为了保证研究结论具有高度可信性,研究团队在实验设计上进行了近乎教科书级的严格控制。

研究人员没有直接采用自然语言任务,而是选择了字符串变换函数作为研究载体,主要原因在于自然语言任务中技能边界往往模糊不清,模型表现容易受到预训练语料的潜在污染,同时也难以明确判断模型究竟学会了何种能力。

相比之下,字符串变换函数具有行为完全确定、复杂度可以被严格控制以及能够人为构造模型在预训练阶段几乎不可能接触过的任务等优势,从而为分析强化学习是否产生新能力提供了一个干净且可控的实验环境。

在这一框架下,研究人员对“技能”给出了清晰而可操作的定义。原子技能被定义为在给定输入的情况下,模型能够正确预测单个函数作用后的输出,而组合技能则指模型在面对嵌套函数时,能够正确推断多个函数顺序作用后的最终结果。技能难度由函数嵌套的深度直接刻画,这使得“新技能”不再是抽象或主观的概念,而成为可以被精确检验和逐层分析的研究对象。

在训练流程上,研究团队采用了两阶段设计,刻意将“掌握单个技能”和“学会组合技能”这两个过程分离。第一阶段使用监督学习训练模型,使其充分掌握每一个字符串变换函数的具体行为,这一阶段仅进行一次,用于建立稳定的原子技能基础。

第二阶段则完全隐藏函数定义,仅向模型提供函数名称和输入字符串,从而迫使模型要么真正理解并正确组合已掌握的原子技能,要么在任务中失败。在这一阶段中,研究人员系统比较了监督学习和强化学习两种训练方式,其中强化学习只提供基于最终结果正确与否的奖励信号,用以检验不同训练机制对组合能力学习的影响。

打开网易新闻 查看精彩图片

在评测方法上,研究团队没有依赖单一的整体指标,而是从多个维度对模型能力进行分析。他们通过测试新函数的组合能力排除了简单记忆的可能,通过更深层次的函数嵌套考察模型是否形成了可泛化的组合策略,并通过跨任务迁移实验检验模型是否仅对特定任务产生适应。

结合不同难度下的准确率、不同采样预算下的 pass@k 表现以及错误类型的细致分析,研究人员构建了一条完整而自洽的证据链,从多个角度支撑了其关于强化学习技能获取机制的结论。

03
关于 RL 价值之争,一个更成熟的回答

这项研究的意义远不止于在字符串任务上取得了具体实验结果,更在于其对当前大语言模型强化学习研究中的核心争论给出了实质性回应。

围绕“强化学习是否能够教会大语言模型新的能力”这一问题,研究团队并未给出简单的肯定或否定答案,而是提出了一个条件化结论,即强化学习确实能够促使模型获得新的能力,但前提在于模型已经具备完成任务所需的原子技能,同时训练任务的设计能够真实地激励模型去使用并发展这种新能力。这种表述超越了以往非黑即白的讨论方式,使相关争论在概念上更加精细和成熟。

在此基础上,研究还为大语言模型的训练流程提供了一种具有启发性的技能分工范式。研究人员隐含提出,预训练或监督微调阶段的核心作用在于帮助模型掌握基本操作和原子能力,而强化学习更适合用于学习如何组织和调度这些已有能力,从而形成更高层次的推理和决策结构。这一训练思路与人类技能学习理论高度一致,也为当前围绕强化学习价值的分歧提供了一个清晰的实践方向。

此外,这项研究首次使跨任务泛化这一长期存在但缺乏解释的问题变得更加可理解。研究结果表明,模型在不同任务之间表现提升的根本原因并非知识层面的直接迁移,而是技能结构层面的迁移,即模型学会了一种更通用的能力组织方式,从而能够在新的任务中更有效地利用已有的原子技能。这一视角为理解多种先进大语言模型在不同领域中展现出的泛化能力提供了重要的分析框架。

04
强大背景的研究团队

这篇论文的一作是袁立凡,目前为伊利诺伊大学香槟分校博士研究生,师从彭昊教授。在此之前,他曾在清华大学自然语言处理实验室开展研究工作,与刘知远教授等合作,积累了扎实的大规模语言模型研究基础,并与季姮教授团队保持学术合作。

其研究兴趣主要集中于大语言模型的反馈学习与强化学习、可扩展数据合成方法以及可自我进化的人工智能系统设计,致力于通过高质量反馈和环境交互提升模型的推理能力、对齐性与可靠性。

在相关方向上,他作为作者在 ICLR、ICML 等国际顶级会议及 arXiv 上发表多项研究成果,提出并参与构建了 UltraFeedback、Eurus 等具有影响力的数据集与方法,对推动大模型训练范式和反馈增强学习研究产生了积极影响。

打开网易新闻 查看精彩图片

参考链接:https://lifan-yuan.github.io/

论文的另一位一作为陈纬泽,目前在清华大学自然语言处理实验室攻读计算机科学与技术博士,师从刘知远教授。

陈纬泽的主要研究兴趣涵盖大规模语言模型、智能体系统、多智能体协作学习以及强化学习等领域,尤其关注如何提升语言模型在复杂任务推理、协作与可推广性方面的能力。

他在构建增强型 LLM 基础架构、多智能体系统优化、推理能力强化学习等方向取得了一系列重要成果,并积极参与多项领先的研究项目,在推动语言模型性能效率与泛化能力提升方面做出了贡献。

作为主要作者或共同作者,陈纬泽在自然语言处理与人工智能领域的顶级会议与期刊(如ICLR、NeurIPS 等)上发表了多篇具有影响力的论文,他的研究成果广泛被引用,涉及强化学习优化、多智能体协作策略等前沿课题,为推动 LLM 在复杂协作与学习任务中的广泛应用提供了理论与实践支持。

打开网易新闻 查看精彩图片

参考链接:https://weizechen.com/

论文的通讯作者为刘知远,他是清华大学计算机科学与技术系教授、博士生导师,兼任中国中文信息学会理事、社会媒体处理专委会副主任等学术职务。

刘知远分别于 2006 年、 2011 年于清华大学计算机科学与技术系获得学士、博士学位,并在清华大学开展博士后研究,后留校任教。其主要研究方向包括大模型技术、自然语言处理、知识图谱与语义计算以及社会计算等核心领域。

刘知远在国际主流学术会议和期刊(如Nature Machine Intelligence、ACL、EMNLP、IJCAI 和 AAAI)上发表了200 余篇论文,其 Google Scholar 引用量超过7万次,反映出广泛的学术影响力。

他在多项国家级科研项目中担任负责人或主要参与者,曾获教育部自然科学一等奖、中国中文信息学会钱伟长中文信息处理科学技术奖一等奖、世界互联网领先科技成果奖、北京市青年教学名师奖等多项科研奖励,并入选包括国家青年人才计划、Elsevier 中国高被引学者、《麻省理工科技评论》中国区“35 岁以下科技创新 35 人榜单”及中国科协青年人才托举工程等人才项目。

打开网易新闻 查看精彩图片

参考地址:https://nlp.csai.tsinghua.edu.cn/~lzy/zh.html

另一位通讯作者为丁宁,他是清华大学电子工程系的助理教授、博士生导师,研究横跨自然语言处理、机器学习与人工智能等核心领域。

他的主要研究方向是通用智能与推理能力的理论、算法和系统设计,特别关注如何通过强化学习、反馈机制和可扩展学习方法提升大规模语言模型和智能系统的推理能力与探索学习能力,同时探索这些技术在科学发现和复杂任务中的应用。

在学术贡献上,丁宁已在诸如Nature Machine IntelligenceICLRNeurIPSICMLACL等国际顶级会议和期刊上发表多篇高引用论文,其谷歌学术引用量超过一万次。

丁宁曾入选中国科协青年人才托举工程,并荣获包括 ACL 最佳系统演示论文奖、世界人工智能大会青年优秀论文奖、中国算力大会最佳学术论文奖、清华大学优秀博士论文奖等多项重要荣誉。

打开网易新闻 查看精彩图片

参考链接:https://www.stingning.cn

第三位通讯作者为崔淦渠,目前在上海人工智能实验室担任青年科学家,并于清华大学自然语言处理实验室获得计算机科学与技术博士学位,导师为刘知远教授。

崔淦渠的研究方向主要包括大规模语言模型对齐、强化学习,同时他也早期从事图神经网络及其在图表示学习中的应用研究。

他还积极推进开源项目和工具的建设,并因在语言模型强化学习与对齐领域的突出贡献获得包括 WAIC 云帆新星奖、国家自然科学基金资助与清华优秀博士论文奖等多项荣誉。

打开网易新闻 查看精彩图片

参考链接:https://cgq15.github.io

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。