这项由阿里巴巴云计算团队主导的研究发表于2026年1月,详细论文编号为arXiv:2601.09088v1,有兴趣深入了解的读者可以通过该编号查询完整论文。
说到人工智能推理能力,就好比培养一个聪明学生的思考能力。传统方法像是让学生直接看标准答案然后模仿,但往往学到的只是表面功夫,缺乏真正的理解。阿里巴巴云团队却想到了一个巧妙的办法:他们开发了一套全新的"师生教学法",让小模型DASD-4B-Thinking在数学、编程和科学推理方面的表现,竟然超越了许多规模大它几十倍的模型。
这个看起来不可思议的成果,背后其实蕴含着对AI学习方式的深刻思考。研究团队发现,当前主流的知识传授方法存在三个关键问题:就像一位老师只告诉学生几个标准答案,却没有展现完整的思考过程;或者老师的教学方式与学生的学习能力不匹配;再或者学生在练习时有老师指导,但考试时却要独自应对。这些问题导致学生虽然能背诵答案,但缺乏灵活的思维能力。
一、重新审视AI的学习方式
在探讨如何让AI更好地学习推理能力之前,我们需要理解当前方法的局限性。传统的序列级蒸馏方法就像让学生直接抄写老师的标准答案,然后通过大量练习来掌握知识。这种方法在表面上看似有效,许多研究团队都通过这种方式取得了不错的成绩,但深入分析就会发现其中的问题。
研究团队将这个过程比作师生关系中的知识传递。在理想状态下,学生应该能够学会老师的全部知识体系,包括思考方式、解题技巧和判断标准。但现实中,大多数方法只是让学生看到老师的最终答案,而忽略了整个思考过程。这就好比学数学时只给公式不讲推导过程,学生虽然能应用公式,但遇到变化就束手无策。
更深层的问题在于,现有方法缺乏真正的师生互动。想象一下,如果老师只是不停地展示标准答案,而从不了解学生的理解程度和学习特点,这样的教学效果必然有限。学生可能在某些方面有天赋,在另些方面需要更多帮助,但这种单向的知识传递无法实现个性化教学。
阿里巴巴团队意识到,要让小模型真正获得强大的推理能力,就必须重新设计整个学习过程。他们提出的方案不再是简单的"看答案-背答案"模式,而是构建了一套完整的教学体系,包括循序渐进的知识传递、个性化的学习内容选择,以及从辅助练习到独立思考的过渡过程。
二、温度调节学习法:从简单到复杂的智慧之路
在传统的AI训练中,研究人员通常会从大模型中随机抽取一些回答来训练小模型。这种做法就像让学生随机做各种难度的题目,有时遇到超纲的难题,有时又碰到过于简单的基础题,学习效果自然不理想。
阿里巴巴团队提出了一个更符合学习规律的方法,叫做"温度调节学习法"。在AI的世界里,"温度"是一个有趣的概念:低温度下,模型会倾向于给出更确定、更标准的答案,就像学霸总是选择最稳妥的解题方法;高温度下,模型会产生更多样化、更具探索性的回答,就像创意丰富的学生会尝试各种不同的思路。
研究团队发现了一个重要现象:当他们用低温度采样的数据训练模型时,虽然学习过程很顺利,就像学生做基础题时很容易掌握,但最终的推理能力有限。而用高温度数据训练时,学习过程变得困难,就像学生直接做难题时经常卡住,但最终获得的能力更强。
这个发现启发了他们设计出温度调节学习法。具体来说,就是让学生先从简单稳定的例子开始学习,建立起基本的思维框架和解题习惯。当学生对这些基础内容掌握得比较熟练后,再逐渐引入更具挑战性和多样性的例子,拓展思维的广度和深度。
实验结果证明了这种方法的有效性。在数学推理测试中,采用温度调节学习的模型在AIME24测试中获得85.2分,在AIME25测试中获得81.3分,明显超过了只使用单一温度的训练方法。这种提升不是偶然的,而是反映了学习过程中由易到难的自然规律。
更有趣的是,研究团队发现这种方法在不同领域都有效果。无论是数学推理、代码生成还是科学问题解答,温度调节学习都能带来显著的性能提升。这说明这种学习策略具有普遍性,就像好的教学方法能适用于不同的学科一样。
三、分歧感知采样:找到最适合学习的内容
在确定了从简单到复杂的学习顺序后,下一个问题就是:在海量的可能答案中,哪些最适合学生学习?这就像老师需要从无数道题目中挑选最有价值的练习题一样。
传统方法通常采用随机选择,就像闭着眼睛从题库里抽题。但阿里巴巴团队提出了一个更聪明的方法:分歧感知采样。这个方法的核心思想是找到老师和学生判断差异最大的例子,因为这些例子最能暴露学生的不足,也最有学习价值。
具体来说,研究团队会让大模型(老师)和小模型(学生)同时对一个问题给出答案和信心度。然后他们会仔细分析两者的差异模式。经过大量实验,他们发现了四种典型的情况:第一种是学生很确定但老师不太认同的答案,这通常表明学生有误解;第二种是老师很确定但学生没把握的答案,这正是学生需要重点学习的内容;第三种是双方都比较认同的答案,说明学生已经掌握了;第四种是训练后学生改进的答案,显示了学习效果。
最关键的发现是,第二种情况——老师确信而学生疑惑的例子,对提升学生能力最有帮助。这很符合常理:当老师对某个知识点很有把握,而学生还不理解时,正是最佳的学习时机。这时候学生可以放心地向老师学习,不用担心被误导。
实验验证了这个策略的有效性。在相同的训练数据量下,使用分歧感知采样的模型在各项测试中都表现更好。比如在AIME24测试中,从83.1分提升到85.0分,在AIME25测试中从76.1分提升到79.2分。更重要的是,这种方法不需要重新收集数据,只需要更智能地选择现有数据,大大提高了学习效率。
这种方法的另一个优点是具有很强的通用性。研究团队发现,针对某个学生模型优化的数据选择策略,也能有效地应用到其他类似的模型上,就像好的教学资料可以给不同的学生使用一样。
四、混合策略蒸馏:从依赖到独立的过渡
即使掌握了前面两种方法,AI学习中还存在一个重要问题:课堂表现和考试表现的差异。在训练过程中,小模型总是能看到老师的指导和正确答案,就像学生做作业时可以随时翻书查资料。但在实际应用中,模型必须完全依靠自己的能力生成答案,就像闭卷考试一样。
这种差异导致了一个被称为"暴露偏差"的问题。研究团队通过实验发现,即使在训练数据上表现很好的模型,在生成长篇推理时也经常出现偏差,比如答案长度与训练时差别很大,或者在推理中途"跑偏"导致最终答案错误。
为了解决这个问题,阿里巴巴团队设计了"混合策略蒸馏法"。这个方法的巧妙之处在于让学生逐渐从依赖老师过渡到独立思考。具体做法是先让学生自己尝试回答问题,然后在学生回答不完整或出现错误的地方,由老师接手完成剩余部分。
这个过程就像学生做习题时,自己先写出一部分解答,当遇到困难时老师及时给出指导,帮助学生完成整个解题过程。通过这种方式,学生不仅能学到正确的知识,还能了解自己的薄弱环节,知道在什么情况下容易出错。
实验显示,即使只用很少的混合策略数据(约7700个样本),就能在已经表现不错的模型基础上进一步提升性能。在AIME24测试中从83.3分提升到88.5分,在AIME25测试中从74.2分提升到83.3分。这种提升虽然幅度不大,但在高水平竞争中往往是决定性的。
更重要的是,使用混合策略训练的模型在生成答案时更加稳定和可靠。它们不再像之前那样容易产生过长或重复的回答,而是能够更好地控制推理过程,生成更接近人类专家水平的解答。
五、完整训练流程:从理念到实践
将前面三个核心方法整合起来,阿里巴巴团队构建了一套完整的训练流程。这个流程就像设计一门完整的课程,从教材选择到教学方法,从课堂练习到期末考试,每个环节都经过精心设计。
首先是数据收集阶段。研究团队从多个公开数据集中精心挑选了涵盖数学推理、代码生成、科学推理和指令跟随四个领域的问题。这些问题就像精心编写的教材,既要有足够的挑战性,又要能够系统地覆盖各个知识点。
数学推理部分主要来源于数学竞赛和在线数学社区,包含了从基础代数到高等数学的各种题型。代码生成部分涵盖了算法竞赛、编程挑战等实际编程场景。科学推理部分包含物理、化学、生物等学科的研究生水平问题。指令跟随部分则涉及各种开放性任务,测试模型的综合理解和执行能力。
在数据预处理阶段,团队采用了严格的质量控制措施。他们过滤掉了过长的回答、包含重复内容的回答,以及结构不完整的回答。这就像老师在选择教学材料时,会剔除那些存在错误或表达不清的内容,确保学生接触到的都是高质量的学习资料。
训练过程分为三个阶段。第一阶段使用低温度采样的数据,让模型建立基础的推理框架。第二阶段使用高温度采样的数据,拓展模型的思维广度。第三阶段使用混合策略数据,帮助模型适应独立推理的要求。
每个阶段的训练参数都经过精心调整。学习率从5e-5开始,逐渐衰减到1e-5,就像学习过程中逐渐减小步长,让模型能够更精确地收敛到最优状态。训练过程中使用了最新的内存优化技术,能够在有限的计算资源下处理长达64K的上下文长度。
最终得到的DASD-4B-Thinking模型,虽然只有40亿个参数,但在多个权威测试中都达到了令人惊讶的性能水平。
六、出色的实验成果:小身材大能量
实验结果充分证明了这套方法的有效性。DASD-4B-Thinking在多个具有挑战性的测试中都表现出色,经常超越那些规模大得多的竞争对手。
在最具挑战性的数学推理测试AIME中,这个小模型取得了令人瞩目的成绩。AIME是美国数学邀请赛,题目难度相当于数学竞赛水平,对AI来说是极其困难的挑战。DASD-4B-Thinking在AIME24中获得88.5分,在AIME25中获得83.3分,这个成绩不仅在同等规模的模型中遥遥领先,甚至超越了许多参数规模达到320亿的大型模型。
在代码生成能力测试LiveCodeBench中,模型获得了69.3分的好成绩。这个测试特别严格,题目都是最新发布的编程挑战,避免了模型可能见过类似题目的情况。能够在这样的测试中获得高分,说明模型真正掌握了编程的逻辑思维,而不是简单地记忆代码模式。
科学推理测试GPQA-Diamond更是检验模型综合能力的试金石。这个测试包含博士水平的物理、化学、生物问题,要求模型不仅要有扎实的科学知识,还要能够进行复杂的逻辑推理。DASD-4B-Thinking获得68.4分,这个成绩已经接近一些大型模型的表现水平。
更令人惊讶的是训练数据的使用效率。大多数现有的开源项目需要数百万个训练样本才能达到相当的性能,而DASD-4B-Thinking只使用了44.8万个样本就实现了更好的效果。这种效率提升不仅意味着更低的训练成本,也表明了方法论的优越性。
研究团队还测试了方法的通用性,将同样的训练数据应用到更大的混合专家模型上。结果显示,即使是预览版的DASD-30B-A3B-Thinking-Preview也能够与其他经过充分训练的同级别模型竞争,在某些测试中甚至表现更好。
这些结果的意义不仅在于数字上的提升,更重要的是证明了通过更好的学习方法,较小的模型也能获得强大的推理能力。这为AI技术的普及和应用提供了新的可能性,让更多的研究者和开发者能够使用高性能的推理模型。
七、深入分析:为什么这套方法如此有效
为了更好地理解这套方法的有效性,研究团队进行了详细的分析实验。他们发现,每个组件的贡献都是不可替代的,而组件之间的协同效应更是推动性能提升的关键。
温度调节学习的效果通过对比实验得到了清晰的验证。当只使用低温度数据时,模型学习过程很顺利,但最终能力有限,就像只做简单题的学生考试时遇到难题就束手无策。当只使用高温度数据时,模型虽然能接触到更多样的思路,但学习过程不稳定,容易陷入混乱状态。而采用温度调节策略后,模型既获得了稳定的基础,又拥有了应对复杂问题的灵活性。
分歧感知采样的价值在于它能够精确定位学习的关键点。通过分析模型在训练过程中的表现,研究团队发现,那些老师确信而学生疑惑的例子确实是推动能力提升的核心。这些例子占训练数据的比例并不高,但对最终性能的影响却是决定性的。
混合策略蒸馏虽然使用的数据量很少,但作用独特。它解决了模型从训练环境到应用环境的适应问题,让模型能够更好地控制自己的推理过程。实验显示,没有这个环节的模型在生成长答案时经常出现重复或偏离主题的问题。
更深层的分析揭示了这套方法成功的本质原因:它真正实现了老师和学生之间的有效互动。传统方法虽然名为"知识蒸馏",但实际上缺乏真正的互动过程,更像是单向的信息传递。而这套新方法通过温度调节确保了信息传递的层次性,通过分歧感知确保了信息的针对性,通过混合策略确保了学习的适应性。
研究团队还发现,这种方法具有很强的迁移能力。在不同的模型架构、不同的应用领域中,这套方法都表现出了一致的有效性。这说明它抓住了AI学习过程的普遍规律,而不是针对特定情况的技巧。
八、广泛影响:重新定义AI学习的未来
这项研究的意义远超出技术层面的改进,它为AI领域提出了一个重要观点:模型的能力不仅取决于参数规模,更取决于学习方法的质量。这个观点挑战了当前业界"大力出奇迹"的主流思维,为资源有限的研究者和开发者提供了新的希望。
从实用角度来看,这套方法大大降低了部署高性能推理模型的门槛。40亿参数的模型可以在普通的服务器甚至高端个人电脑上运行,而不需要昂贵的专业硬件。这意味着更多的应用场景可以引入AI推理能力,从教育辅助到代码审查,从科学研究到日常问题解答。
在教育领域,这种高效的AI推理模型可以作为学生的学习助手,帮助他们理解复杂的数学概念、检查编程作业、解释科学原理。由于模型体积小,可以部署在本地环境中,保护学生数据隐私的同时提供个性化服务。
对于软件开发者来说,这种模型可以集成到代码编辑器中,提供实时的编程建议和错误检查。相比于需要联网调用大型模型的方案,本地部署的小模型响应速度更快,使用成本更低。
科研工作者也能从中受益。在数据分析、实验设计、文献综述等环节,AI推理助手可以提供有价值的建议和检查。小型模型的部署灵活性使得研究团队可以根据具体需求定制功能,而不需要依赖外部服务。
更重要的是,这项研究为AI民主化提供了技术支撑。当高性能AI不再是大公司的专利,更多的创新可能性就会被释放出来。小企业、研究机构、甚至个人开发者都能够基于这种高效的模型开发自己的AI应用。
从方法论角度,这项研究也为其他AI任务提供了启示。无论是自然语言理解、图像识别还是其他智能任务,都可能从这种注重学习过程设计的思路中获得改进。这种从"喂数据"到"设计学习"的转变,可能会成为AI技术发展的新趋势。
九、开源贡献:共享智慧的力量
阿里巴巴团队展现了值得赞赏的开放态度,他们将完整的模型、训练数据和代码都公开发布,让整个AI社区都能受益于这项研究成果。这种做法不仅体现了科学研究的开放精神,也为推动整个领域的发展做出了实质贡献。
开源的内容包括两个主要模型:DASD-4B-Thinking(40亿参数版本)和DASD-30B-A3B-Thinking-Preview(300亿参数的混合专家版本)。这两个模型分别适应不同的应用场景,前者适合资源受限的环境,后者则能提供更强的性能。
更有价值的是训练数据的开源。这个包含44.8万样本的数据集经过精心筛选和处理,涵盖了数学、编程、科学和通用推理等多个领域。对于研究者来说,这不仅是一个可以直接使用的训练资源,更是了解高质量数据构建过程的宝贵参考。
代码的开源则让其他研究者可以复现实验结果,验证方法的有效性,或者在此基础上进行进一步的改进。完整的训练流程、数据处理脚本、评估工具都被包含在开源包中,大大降低了其他研究者的使用门槛。
这种开放态度的积极影响已经开始显现。许多研究团队开始基于这套方法开展自己的研究,有的专注于特定领域的优化,有的探索方法在其他任务中的应用。这种知识的快速传播和迭代正是开源精神的体现,也是科技进步的重要推动力。
开源还带来了意想不到的质量提升效果。当方法和数据公开后,来自全世界的研究者都可以进行验证和测试,发现潜在问题并提出改进建议。这种群智效应往往能够发现原始研究中的盲点,推动方法的进一步完善。
对于产业界来说,开源降低了技术应用的风险和成本。企业可以基于开源模型快速构建原型,验证技术可行性,而不需要从零开始投入大量研发资源。这种做法促进了技术的快速产业化,让研究成果能够更快地惠及普通用户。
十、未来展望:持续探索的方向
虽然取得了令人瞩目的成绩,但研究团队也清醒地认识到还有很大的改进空间。他们在论文中明确提出了几个重要的发展方向,为后续研究指明了道路。
首先是分布感知重加权技术的探索。当前的方法已经能够选择最有学习价值的数据,但还可以进一步根据老师模型的输出概率对训练数据进行智能加权。这就像老师不仅选择合适的题目,还要根据每道题的重要程度分配不同的练习时间。这种更精细的控制有望进一步提升学习效率。
混合策略蒸馏的优化也是一个重要方向。当前版本虽然有效,但训练过程还有优化空间,特别是在稳定性和效率方面。研究团队计划开发更加智能的策略,能够自动判断何时需要老师介入,如何设计最有效的师生协作模式。
更令人兴奋的是与其他AI能力的整合前景。当前的模型主要专注于推理能力,但在实际应用中,推理往往需要与知识检索、工具使用等能力结合。研究团队计划探索如何将这种高效的推理能力与知识库查询、代码执行、图像理解等功能结合,构建更加全面的AI助手。
方法的通用性扩展也是重要研究方向。虽然当前方法在多个领域都表现良好,但针对特定任务的优化仍有潜力。比如在医学诊断、法律分析、金融风控等专业领域,可能需要针对领域特点对方法进行调整。
计算效率的进一步提升同样值得关注。虽然40亿参数的模型已经相当轻量,但对于边缘设备和实时应用来说,还有压缩空间。研究团队正在探索如何在保持推理质量的同时,进一步减少模型规模和计算需求。
最后,安全性和可靠性的提升是不可忽视的重要方面。随着AI推理模型在关键应用中的使用越来越广泛,如何确保模型输出的可靠性、如何识别和处理模型的不确定性,如何防止有害内容的生成,这些都需要专门的研究和解决方案。
说到底,这项研究最大的价值不在于创造了一个性能突出的模型,而在于提出了一套全新的AI学习理念。它告诉我们,通过精心设计学习过程,小模型也能获得大模型的能力;通过注重师生互动,知识传递可以变得更加高效;通过开放共享,个体的研究成果可以推动整个领域的进步。这种思路不仅适用于当前的推理任务,也可能为AI技术的整体发展提供新的启示。当我们不再盲目追求模型规模的扩大,而是开始思考如何让学习过程更加智能时,AI技术的发展就有了更广阔的可能性。
Q&A
Q1:DASD-4B-Thinking相比其他小模型有什么优势?
A:DASD-4B-Thinking虽然只有40亿参数,但在数学推理测试AIME24中获得88.5分,AIME25中获得83.3分,这个成绩超越了许多320亿参数的大型模型。它的优势在于采用了全新的学习方法,包括从简单到复杂的温度调节学习、精准选择学习内容的分歧感知采样,以及帮助模型适应独立推理的混合策略蒸馏,让小模型也能获得强大的推理能力。
Q2:温度调节学习法具体是怎么工作的?
A:温度调节学习法就像让学生先做基础题再做难题的教学方式。在AI训练中,"低温度"会让模型产生更确定、更标准的回答,"高温度"会产生更多样化的回答。研究团队先用低温度数据让模型建立稳定的基础思维框架,然后用高温度数据拓展模型的思维广度。实验证明这种方法比只用单一温度训练效果更好,能让模型既有稳定基础又有应对复杂问题的灵活性。
Q3:普通人能使用DASD-4B-Thinking吗?
A:可以的。阿里巴巴团队已经将DASD-4B-Thinking模型完全开源,包括模型文件、训练数据和代码都可以免费获取。由于模型只有40亿参数,可以在普通服务器甚至高端个人电脑上运行,不需要昂贵的专业硬件。这意味着研究者、开发者甚至个人用户都可以基于这个模型开发自己的AI应用,比如数学学习助手、编程辅助工具等。
热门跟贴