打开网易新闻 查看精彩图片

这项由俄罗斯T-Tech公司联合圣彼得堡电子技术大学开展的研究发表于2026年2月,论文编号为arXiv:2602.06717v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当我们教孩子学数学时,经常会发现一个有趣现象:孩子们在练习了大量简单题目后,虽然能快速解答常见问题,但面对稍微复杂或不常见的题目时却束手无策。这个现象在人工智能领域同样存在,而且问题更为严重。T-Tech的研究团队最近发现了一个困扰AI训练多年的核心问题,并提出了一个巧妙的解决方案。

在人工智能训练过程中,研究人员发现了一个类似"偏科"的现象。当AI系统通过强化学习方法进行训练时,它会逐渐变得"势利眼"——只专注于那些容易获得正确答案的常见问题,而对那些同样正确但比较罕见的解决方案视而不见。这就好比一个学生只会做标准教科书上的题目,一遇到创新性或变化较大的题目就不知所措。

更令人担忧的是,这种"偏科"现象并不是简单的学习不足问题,而是训练方法本身存在的系统性缺陷。研究团队通过深入分析发现,这个问题的根源在于AI训练时的"小组学习"机制。就像老师让学生分小组讨论问题一样,AI训练也是通过小组采样来估计学习效果。但问题在于,当小组规模不够大时,那些罕见但正确的答案很难被抽样到,导致AI逐渐"遗忘"这些珍贵的解决方案。

研究团队的核心发现可以用一个简单的比喻来理解:假设你在一个图书馆里寻找资料,图书馆有很多不同类型的书籍,其中一些是热门畅销书,容易找到,另一些是专业性很强但同样有价值的冷门书籍。如果你每次只随机抽取几本书来学习,那么大部分时间你接触到的都是热门书籍,久而久之,你就会忽略那些同样重要但不常见的专业书籍。

这种现象在数学推理、代码生成等需要创造性思维的任务中尤为明显。AI系统在训练后虽然能够快速解决常见问题,提高了所谓的"一次通过率",但在需要多样化解决方案的场景下,其表现却大幅下降。这就是研究人员所说的"分布锐化"问题——AI的输出分布变得过于尖锐和集中,失去了原有的多样性。

一、训练规模的三重困境

研究团队通过大量实验发现了一个令人意外的现象:AI训练中的小组规模存在一个"三重困境"。这个发现颠覆了很多人的直觉认知。

当训练采用很小的小组规模时,比如每次只让AI看两个例子,虽然AI不容易产生偏见,但学习效率极其低下。这就像一个学生每次只做两道题就休息,虽然不会形成固化思维,但学习进度缓慢,难以在短时间内掌握核心知识点。

相反,当小组规模很大时,比如每次让AI看几百个例子,虽然能够保证罕见答案被充分采样到,但这需要enormous的计算资源。就好比让一个学生每次都要做几百道题才能总结经验,虽然效果好,但现实中很难实现。

最有趣的是中等规模的情况。研究团队发现,当小组规模处于中等水平时,比如每次看8到32个例子,问题变得最为严重。这时AI既频繁地进行学习更新,又经常错过那些罕见但正确的答案。这种情况下,AI会快速学会常见解法,同时迅速"遗忘"那些不常见的解决方案。

研究团队通过数学推导得出了一个精确的公式,能够预测在不同小组规模下,AI错过罕见正确答案的概率。这个公式显示,错过概率随着小组规模的变化呈现出一条山峰形的曲线:在小组规模很小时概率接近零(因为很少进行学习),在规模很大时概率也接近零(因为能充分覆盖各种答案),但在中等规模时达到峰值。

这个发现解释了为什么现实中的AI训练经常遇到性能瓶颈。大多数研究团队由于计算资源限制,往往选择中等规模的小组进行训练,恰好落入了这个最危险的区域。这就像开车时,既不能开得太慢(效率低),也不能开得太快(成本高),但中等速度时却最容易出事故。

二、深层机制的数学揭秘

为了更深入理解这个现象,研究团队构建了一个精巧的数学模型,将AI的学习过程类比为在一个巨大的概率空间中重新分配"注意力资源"。

在这个模型中,每个可能的答案都有一定的概率权重,就像每个学生在班级中都有不同的发言机会。当AI进行学习时,它会根据训练样本调整这些权重。问题在于,这种调整不是简单的加减,而是一个复杂的重新分配过程。

研究团队发现,当AI增加对常见正确答案的重视时,它不仅会减少对错误答案的关注,还会无意中削弱对那些未被采样到的正确答案的重视。这种现象被称为"未采样-正确质量收缩"。用通俗的话说,就是AI在强化常见正确答案的同时,会不经意地弱化那些同样正确但没有在当前训练中出现的答案。

这个过程可以用一个水桶比喻来理解:假设有一个装满水的桶,代表AI对所有可能答案的总关注度。当你想要增加某个部分的水量时,由于桶的总容量有限,水必须从其他地方流过来。问题是,水不仅会从错误的部分流过来,也会从那些正确但当前没有被"激活"的部分流过来。

研究团队通过严格的数学推导证明了这种质量收缩现象的必然性。他们发现,即使在总体正确答案质量增加的情况下,未采样的正确答案质量仍然可能下降。这就解释了为什么AI在提高常见问题解决能力的同时,会逐渐失去处理罕见问题的能力。

三、创新解决方案:难度感知的焦点加权

面对这个复杂问题,研究团队受到计算机视觉领域"焦点损失"技术的启发,提出了一个巧妙的解决方案。他们的核心思想是让AI能够区分"简单题目"和"困难题目",然后有针对性地调整学习强度。

这个方法的工作原理类似于一个聪明的老师如何分配教学精力。当面对一道大部分学生都能轻松解答的简单题目时,老师不会花费太多时间强化训练。相反,当遇到只有少数学生能够解答的困难题目时,老师会投入更多精力来确保这些珍贵的解题思路得到充分重视。

具体来说,研究团队设计了一个"难度权重"机制。对于每个训练样本,系统会首先计算AI在该样本上的成功率。如果成功率很高,说明这是一个"简单题目",系统就会降低对该样本的学习强度。如果成功率较低,说明这是一个"困难题目",系统就会维持或增加学习强度。

这个权重机制使用了一个简单而有效的数学公式:权重 = (1 - 成功率)^γ,其中γ是一个可调节的参数。当γ=0时,所有题目获得相同权重,相当于传统方法。当γ>0时,高成功率的题目获得较低权重,低成功率的题目获得较高权重。

研究团队将这种方法命名为"F-GRPO"(Focal-weighted Group Relative Policy Optimization),可以无缝集成到现有的各种AI训练框架中。更重要的是,这种方法不需要额外的计算资源,只是在原有训练过程中添加了一个权重调节机制。

四、实验验证与效果展示

为了验证这个方法的有效性,研究团队进行了大量的实验测试。他们使用了多个不同规模的AI模型,包括Qwen2.5-7B、Qwen2.5-1.5B-Math和Llama-3.2-3B-Instruct,在数学推理、代码生成和指令跟随等多个任务上进行了测试。

实验结果令人印象深刻。在数学推理任务上,使用F-GRPO方法训练的AI模型在保持单次答题准确率的同时,显著提高了多次尝试的成功率。具体来说,当允许AI尝试256次时,GRPO方法的成功率从64.1%提升到70.3%,DAPO方法从69.3%提升到72.5%,CISPO方法从73.2%提升到76.8%。

更重要的是,这种改进不仅在训练任务上有效,在完全不同的测试任务上也表现出色。这说明F-GRPO方法真正提高了AI的泛化能力,而不只是在特定任务上的过拟合。

研究团队还进行了一个有趣的对照实验。他们构建了一个简化的模拟环境,在其中可以精确控制各种参数,观察不同训练方法对AI行为的影响。结果显示,传统方法确实会导致AI逐渐"遗忘"那些初始时就比较罕见的正确答案,而F-GRPO方法能够有效保护这些珍贵的解决方案。

为了确保实验结果的可靠性,研究团队还与其他常用的多样性保护方法进行了比较,包括熵正则化和KL散度约束等。结果显示,F-GRPO方法在大多数指标上都优于这些传统方法,同时实现简单,计算开销更小。

五、理论贡献与实际意义

这项研究的理论价值远超其实际应用。研究团队首次从数学角度严格证明了强化学习中分布锐化现象的必然性,并给出了定量的预测公式。这为理解AI训练过程中的各种现象提供了重要的理论基础。

研究团队发现的"三重困境"现象也具有广泛的指导意义。它告诉我们,在资源有限的情况下,简单地增加或减少训练规模可能都不是最优选择,关键是要找到合适的平衡点,或者采用更智能的训练策略。

从实际应用角度来看,F-GRPO方法的最大优势在于其简单性和通用性。它不需要修改现有的AI架构,只需要在训练过程中添加一个权重计算步骤。这意味着现有的AI系统可以很容易地采用这种方法来改善性能。

更重要的是,这种方法解决了一个长期困扰AI研究的根本性问题。随着AI系统在各个领域的广泛应用,保持输出多样性变得越来越重要。无论是在科学研究中寻找创新性解决方案,还是在创意产业中生成多样化内容,都需要AI系统具备处理罕见但有价值情况的能力。

六、未来展望与局限性

虽然F-GRPO方法取得了显著成果,但研究团队也诚实地指出了其局限性。首先,该方法主要针对具有明确正确答案的任务,如数学问题和代码生成。对于那些没有标准答案的开放性任务,如创意写作或艺术创作,其效果还需要进一步验证。

此外,难度权重参数γ的选择仍然需要根据具体任务进行调整。虽然研究团队发现γ=0.5或γ=1.0在大多数情况下效果较好,但不同类型的任务可能需要不同的参数设置。

研究团队也指出,当前的方法仍然是在现有训练框架内的改进,没有从根本上改变强化学习的基本范式。未来可能需要探索更加根本性的训练方法,比如动态调整小组规模或采用更复杂的采样策略。

从更广泛的角度来看,这项研究揭示了AI训练中普遍存在的一个深层矛盾:效率与多样性之间的权衡。随着AI系统变得越来越强大,如何在保持高效学习的同时维护输出多样性将成为一个持续的挑战。

展望未来,研究团队计划将这种思想扩展到更多的AI训练场景中,包括多模态学习、持续学习和联邦学习等新兴领域。他们相信,通过持续改进AI的学习机制,最终能够构建出既高效又富有创造性的人工智能系统。

说到底,这项研究解决的不仅仅是一个技术问题,更是关于如何让AI系统更好地模拟人类学习过程的根本性思考。人类在学习过程中能够很好地平衡常见知识的掌握和罕见情况的处理能力,而AI系统在这方面还有很大的改进空间。F-GRPO方法为我们提供了一个有希望的起点,让AI系统能够像人类一样,既能快速掌握常规知识,又不会忘记那些珍贵而罕见的智慧。

Q&A

Q1:F-GRPO是什么技术?

A:F-GRPO是T-Tech公司开发的AI训练优化技术,它能让AI在学习过程中自动识别简单和困难的题目,对困难题目投入更多精力,从而避免AI只会做常见题目而忽视罕见但正确答案的问题。这就像一个聪明老师会对难题多花时间,对简单题少花精力。

Q2:为什么AI训练会出现"遗忘罕见答案"的问题?

A:这是因为AI训练时采用小组学习机制,当小组规模中等时最容易出问题。就像在图书馆随机抽几本书学习,大部分时间会抽到热门书籍,冷门但有价值的专业书很难被选中,久而久之AI就会忽视这些罕见但正确的解决方案。

Q3:F-GRPO技术对普通用户有什么好处?

A:使用F-GRPO训练的AI会更聪明、更有创造性。比如在数学解题时,它不仅能快速解决常见问题,还能处理那些不常见但同样重要的复杂题目,成功率能提升6-10个百分点。这意味着AI助手会变得更可靠、更全面。