这项由中国科学院自动化研究所基础模型研究中心联合新加坡国立大学、腾讯等机构开展的研究发表于2026年,论文编号为arXiv:2604.02288v1。有兴趣深入了解的读者可以通过该编号查询完整论文。这项突破性研究解决了一个困扰AI训练领域的难题:如何让大型语言模型既能快速学会复杂推理,又能保持长期稳定的学习效果。

打开网易新闻 查看精彩图片

当前的AI训练就像教学生做数学题,面临着两难选择。传统的奖励式训练方法就像给学生打分数——答对了就给高分,答错了就给低分。这种方法很稳定,就像一位严格但公正的老师,能让学生稳步提升。但问题是这种方法太粗糙了,就好比老师只会说"这道题做错了",但不会指出具体哪一步出了问题,学生学习起来自然比较慢。

为了解决这个问题,研究人员开发了一种叫做"自蒸馏"的方法。这就像让学生自己当老师,在知道正确答案的情况下,重新审视自己的解题过程,逐步纠正每一个细节错误。这种方法确实能让学生快速改进,因为它提供了非常具体的指导——不仅知道哪里错了,还知道每一步应该怎么做。然而,这种方法有个致命缺陷:随着训练时间延长,学生会变得越来越不稳定,甚至出现严重的学习倒退。

研究团队深入分析后发现,自蒸馏方法的不稳定性源于两个根本问题。首先是"好学生也被过度纠正"的问题。当一个学生已经把题目做对了,却还要求他按照另一个同样正确但方法不同的答案来调整自己的解题思路,这就会造成混乱。就像两个厨师都能做出美味的红烧肉,但如果强迫一个厨师完全按照另一个厨师的方法来做,反而可能破坏他原本的手艺。

其次是"老师能力下降"的问题。在自蒸馏过程中,AI既是学生也是老师。随着训练进行,"学生AI"和"老师AI"的能力差距逐渐缩小,老师提供的指导变得越来越模糊和不确定。这就像一个刚学会开车的人去教另一个新手,指导质量自然会大打折扣。

基于这些洞察,研究团队提出了一种巧妙的解决方案:样本路由策略优化方法(SRPO)。这个方法的核心思想是"因材施教"——对于不同类型的学习情况,采用最适合的指导方式。

具体来说,SRPO就像一个智能的学习管理系统。当AI成功解决了一个问题时,系统会使用传统的奖励式方法给予鼓励和强化,就像对优秀学生说"做得很好,继续保持"。这样既不会造成混乱,又能稳固正确的学习成果。

但当AI犯错时,系统会立即切换到详细的逐步纠错模式。这时就像请来了一位经验丰富的老师,不仅告诉学生答案是错的,还会具体指出每一个步骤的问题所在,并演示正确的解决方法。这种针对性的指导能够快速帮助AI改正错误。

更巧妙的是,研究团队还开发了一套"信心评估机制"。由于在训练后期,AI老师的指导质量会下降,系统会自动检测这些指导的可靠程度。当发现指导内容不够确定时,系统会降低这些建议的权重;而对于那些明确、可靠的指导,系统会给予更高的重视。这就像学生学会了判断老师建议的质量,对于模糊不清的建议保持谨慎,对于明确有用的建议重点吸收。

研究团队在五个不同的基准测试中验证了这种方法的效果,涵盖了化学、物理、生物、材料科学和工具使用等多个领域。测试使用了两种不同规模的AI模型:40亿参数和80亿参数的Qwen3模型。

实验结果令人印象深刻。在80亿参数的模型上,SRPO方法将平均准确率提升到了77.4%,相比传统奖励方法的74.0%提升了3.4个百分点,相比纯自蒸馏方法的71.1%提升了6.3个百分点。在40亿参数的模型上,改进效果更加显著,平均准确率达到74.2%,分别比两种基准方法提升了4.5和7.5个百分点。

更重要的是,SRPO成功地结合了两种方法的优势。在训练初期,它展现出与自蒸馏方法相当的快速学习能力;而在长期训练中,它保持了传统奖励方法的稳定性,避免了性能倒退的问题。

研究还发现了一个有趣的现象:随着训练进行,需要详细纠错的错误样本逐渐减少,而能够直接给予奖励的正确样本越来越多。这意味着SRPO能够自动调节两种学习模式的比重,在早期更多地进行纠错,在后期更多地进行强化,实现了一种自适应的学习策略。

在计算效率方面,SRPO也表现出色。虽然在训练初期由于需要更多的详细指导而稍微增加了计算开销,但随着训练进行,这种开销逐渐减少。在长期训练中,SRPO的每步计算时间比传统方法减少了多达17.2%。

此外,研究团队还发现SRPO训练出的AI在回答问题时保持了适中的详细程度。传统奖励方法容易产生过于冗长的答案,而纯自蒸馏方法则容易产生过于简短的答案,这种过度简化可能会丢失重要的推理步骤。SRPO很好地平衡了这两个极端,生成的答案既不啰嗦也不过于简略。

这项研究的意义不仅仅在于技术层面的突破,更在于它提供了一种新的思路来理解AI学习。就像人类教育中需要因材施教一样,AI训练也需要根据不同情况采用最合适的方法。SRPO证明了通过智能地组合不同的学习策略,可以获得比单独使用任何一种策略更好的效果。

从更广泛的角度来看,这项研究为未来开发更强大、更可靠的AI系统提供了重要启示。随着AI系统变得越来越复杂,如何有效地训练它们成为了关键挑战。SRPO展示的"智能路由"思想可能会在更多场景中得到应用,帮助我们构建既高效又稳定的AI学习系统。

研究团队也指出了未来的发展方向。他们希望将这种方法扩展到能够提供更丰富反馈信息的环境中,让AI能够从更多样化的学习信号中受益。这可能会进一步提升AI的学习效率和最终性能。

说到底,这项研究解决了AI训练中的一个根本矛盾:快速学习与长期稳定之间的取舍。通过巧妙的设计,研究团队证明了我们不必在速度和稳定性之间做出选择,而是可以同时拥有两者的优势。这种"既要又要"的解决方案,为AI技术的进一步发展开辟了新的可能性。对于普通人来说,这意味着未来的AI助手将能够更快地学会新技能,同时保持长期稳定可靠的性能,为我们的日常生活和工作提供更好的支持。有兴趣深入了解技术细节的读者可以通过arXiv:2604.02288v1查询完整的研究论文。

Q&A

Q1:SRPO方法是如何解决AI训练中速度和稳定性矛盾的?

A:SRPO采用"因材施教"的策略,对AI做对的题目用传统奖励方法鼓励,对做错的题目用详细纠错方法指导。这样既保持了快速学习能力,又避免了长期训练中的不稳定问题,就像给不同水平的学生安排最适合的教学方式。

Q2:样本路由策略优化方法相比传统方法提升了多少性能?

A:在五个基准测试中,SRPO将80亿参数模型的平均准确率提升到77.4%,比传统GRPO方法高出3.4个百分点,比自蒸馏SDPO方法高出6.3个百分点。同时还将计算成本降低了17.2%,实现了性能和效率的双重提升。

Q3:为什么自蒸馏方法在长期训练中会变得不稳定?

A:自蒸馏方法的不稳定主要源于两个问题:一是对已经正确的答案进行过度纠正,造成学习混乱;二是随着训练进行,AI老师的指导质量逐渐下降,提供的建议越来越模糊不确定,最终导致学习效果倒退。