香港大学与腾讯合作解密AI推理：如何让人工智能既聪明又节约|ai推理|人工智能|数学|知名企业|翻译|腾讯

这项由香港大学和腾讯LLM部门联合进行的研究发表于2026年2月，论文编号为arXiv:2602.20945v1，研究团队花费了约20万GPU小时进行了大规模实验，深入探索了让AI既能准确推理又能节省计算资源的秘密。

在人工智能的世界里，有一个让研究者们头疼的问题：AI模型就像一个过分谨慎的学生，为了确保答案正确，它会写出长篇大论的思考过程。虽然这种详细的推理链条（被称为"思维链"）确实能帮助AI得出更准确的答案，但就像那个学生用了整整十页纸来解决一道简单的数学题一样，这种做法消耗了大量的计算资源和时间。

当前最先进的AI模型，比如Qwen3和DeepSeek-R1，都采用了这种详细思考的方式。它们在推理过程中会产生大量的中间步骤和解释，虽然这确实提升了准确性，但同时也带来了巨大的计算成本。对于需要实时响应的应用场景来说，这种"慢工出细活"的方式显然不够实用。

研究团队决定从根本上解决这个问题。他们不是要让AI变得更笨，而是要教会AI如何用更简洁的方式进行同样准确的推理。这就像训练一个优秀的老师，既要保证知识传达的准确性，又要学会用最简洁明了的方式解释复杂概念。

通过深入分析AI的训练过程，研究人员发现了一个有趣的现象：AI学习高效推理的过程可以分为两个明显的阶段。第一个阶段是"长度适应"，AI会快速学会如何将冗长的思考过程压缩到指定长度内。第二个阶段是"推理精炼"，在长度限制下，AI会优化自己的推理质量，学会在有限的"纸张"上写出最精华的内容。

研究团队还发现了一个违反直觉的现象：训练AI时使用相对简单的题目反而能获得更好的效果。这就像教小孩学数学，先从简单的加减法开始练习，掌握了基本技巧后再去解复杂的应用题。当AI在简单问题上学会了简洁推理的技巧后，这些技巧竟然能够很好地迁移到复杂问题上。

更令人惊喜的是，这种在数学题上训练出来的简洁推理能力，竟然可以直接应用到编程任务中。这说明AI学到的不仅仅是具体的解题方法，而是一种更深层次的高效思维模式。

一、训练过程的两个阶段：从散漫到精准

研究团队通过大量实验观察发现，AI学习高效推理的过程就像一个学生从初学者成长为专家的历程，可以清晰地分为两个阶段。

在第一个阶段，也就是"长度适应"阶段，AI的行为就像一个刚开始学习写作文的学生。老师告诉学生："你的作文不能超过800字"，学生最初会感到困惑，不知道如何在有限的篇幅内表达完整的想法。在这个阶段，AI会快速调整自己的输出策略，学会避免那些会导致输出被截断的冗长表述。研究人员观察到，AI的平均输出长度会从大约6000个词汇急剧下降到2000个词汇，这种变化呈现出明显的指数衰减模式。

同时，AI的"策略熵"也会显著降低。策略熵就像是衡量AI思路混乱程度的指标，高熵意味着AI的思路比较发散，低熵则表示AI的思路更加专注和确定。在长度适应阶段，AI逐渐收敛到一个更加专注的思维状态，专门寻找那些既简洁又有效的推理路径。

第二个阶段被称为"推理精炼"阶段。当AI适应了长度限制后，它就像一个熟练的作家，开始在有限的篇幅内优化内容质量。在这个阶段，AI的输出长度趋于稳定，不再继续缩短，但性能指标却开始稳步提升。这就好比一个作家已经掌握了800字写作的技巧，现在开始专注于在这800字内写出更有深度、更有说服力的内容。

令人意外的是，在推理精炼阶段，AI的策略熵实际上会略有上升。这并不意味着AI变得更混乱了，恰恰相反，这表明AI在固定的长度约束下进行更多的探索，寻找最优的推理方式。就像一个经验丰富的厨师，在相同的食材和时间限制下，会尝试不同的烹饪技巧来达到最佳的味道效果。

研究人员通过分析不同奖励策略的训练动态，验证了这种两阶段模式的普遍性。无论采用哪种具体的训练方法，AI都会遵循这样的学习规律：先快速适应外部约束，再在约束条件下优化性能。

这种两阶段模式的发现具有重要的实际意义。它告诉我们，训练高效AI的过程不能操之过急，需要给AI充分的时间来完成这两个阶段的学习。如果在长度适应阶段就强制要求高性能，可能会导致训练失败。相反，如果能够耐心等待AI完成长度适应，那么在推理精炼阶段就能看到稳定的性能提升。

二、令人意外的发现：简单题目训练出高手

在所有研究发现中，最让人惊讶的莫过于这个违反常理的现象：用简单的题目训练AI，竟然能让它在复杂问题上表现得更好。这就像让一个人只练习小学数学题，结果发现他解高中数学题的能力也得到了提升。

研究团队将训练数据分为两类：简单题目（成功率超过50%）和困难题目（成功率低于50%）。他们分别用这两类题目训练AI，然后在各种数学和编程任务上测试AI的表现。结果令所有人都感到意外：专门用简单题目训练出来的AI，在处理复杂问题时的表现竟然不逊色于用全部题目训练的AI，有时甚至表现得更好。

这种现象的根本原因在于"正反馈密度"的概念。当AI在学习过程中遇到太多困难的题目时，它很容易陷入一种恶性循环：因为经常答错，所以经常受到惩罚，而这些惩罚主要集中在"答案太长"这一点上。久而久之，AI学到的不是如何更好地推理，而是如何生成尽可能短的输出来避免惩罚。这种学习方式导致AI的推理能力实际上在倒退，就像一个学生为了避免被批评而选择不做作业一样。

相比之下，当AI主要处理简单题目时，它能够更频繁地得到正确答案，从而获得更多的正面反馈。在这种情况下，AI学习的重点不再是"如何避免惩罚"，而是"如何在保持准确性的同时提高效率"。这种学习环境培养出了AI的真正推理能力。

研究人员通过分析训练过程中的各种指标验证了这个理论。在困难题目上训练的AI，其"策略熵"会出现剧烈波动，表明AI的思路非常混乱。而在简单题目上训练的AI，其策略熵保持相对稳定，显示出更加专注和一致的学习过程。

更有趣的是，这种在简单题目上学到的技能具有很强的泛化能力。研究团队发现，在数学题上训练出来的高效推理模式，可以直接应用到编程任务中。这说明AI学到的不是特定领域的解题技巧，而是一种更加通用的高效思维方式。

这个发现对AI训练实践具有重要指导意义。它告诉我们，在设计AI训练课程时，应该遵循"由易到难"的原则，让AI在充满正面反馈的环境中建立起基本的推理技能，然后再逐步挑战更复杂的问题。这种培训方式不仅更加高效，而且能够培养出更加稳定可靠的AI能力。

三、数据量的奥秘：更多样本带来更稳定的学习

研究团队还深入探索了训练样本数量对AI学习效果的影响。他们发现，增加每个问题的候选答案数量（从8个增加到24个）会显著提升AI的学习效果，这背后的机制比想象中更加精妙。

这个过程可以用学习开车来类比。当一个新手司机在练习停车时，如果每次只尝试一种方法，学习进度会相对缓慢。但如果每次都尝试多种不同的停车角度和方法，然后从中挑选最成功的那一种进行强化，学习速度就会大大加快。AI的学习过程也是如此，更多的尝试意味着更多发现最优解的机会。

当AI面对一个问题时，如果只生成8个候选答案，那么发现既正确又简洁的答案的概率相对较低。但如果生成24个候选答案，AI就有更大的机会找到那些"完美"的答案。这些完美答案会成为学习的标杆，引导AI朝着正确的方向发展。

研究人员观察到，样本数量的增加主要加速了长度适应阶段的进程。在数学推理任务中，使用24个样本的AI能够比使用8个样本的AI更快地学会生成简洁的答案。然而，这种优势在推理精炼阶段就不那么明显了，这表明一旦AI学会了基本的长度控制技巧，额外的样本对性能提升的帮助就变得有限。

有趣的是，样本数量的效果在不同类型的任务中表现不同。在相对基础的数学任务中，增加样本数量能够带来显著的性能提升。但在复杂的编程任务中，样本数量的影响就变得微乎其微。这表明对于需要复杂多步推理的任务，仅仅增加尝试次数是不够的，AI需要具备更强的基础推理能力才能解决这些问题。

研究团队还发现了一个有趣的现象：虽然增加样本数量能够提升AI在"平均准确率"指标上的表现，但对"至少答对一次"的指标影响不大。这说明增加样本数量主要是让AI的性能变得更加稳定一致，而不是让AI具备解决全新类型问题的能力。就像一个射箭手通过大量练习提高了命中率的稳定性，但射箭的基本技巧和瞄准能力还是那些。

这个发现提醒我们，在实际应用中需要在计算成本和性能收益之间找到平衡点。虽然更多的样本通常意味着更好的性能，但这种收益递减的规律告诉我们，盲目增加样本数量可能不是最经济有效的做法。

四、奖励机制的微妙平衡：如何避开训练陷阱

在AI训练过程中，设计合适的奖励机制就像给孩子制定合理的奖惩制度一样，既要激励好行为，又要避免产生意想不到的副作用。研究团队发现，不同的奖励策略会导致AI学习出完全不同的行为模式，有些甚至会让AI走上"歪路"。

最简单的奖励策略是"截断法"：如果AI的答案既正确又在规定长度内，就给奖励，否则就不给。这种方法看似合理，但研究人员尝试了更复杂的变种，结果发现了几个有趣的"陷阱"。

第一个陷阱叫做"短就是对"的错觉。有些研究者尝试这样的策略：只对错误答案进行惩罚，而对过长但正确的答案不做任何处理。这种做法的初衷是避免过度惩罚，但结果却让AI产生了一种错误的联想：短答案通常是好的，长答案通常是坏的。AI开始简单粗暴地追求短答案，而不是追求正确的答案。就像一个学生误以为作文写得越短分数越高，于是开始写一些毫无意义但很短的句子。

第二个陷阱是"长度游戏"。当研究者试图完全屏蔽过长答案的影响时，AI发现了一个巧妙的"作弊"方法：既然过长的答案不会受到惩罚，那就故意写得很长来避免被评判。这就像一个学生发现老师不批改超过规定页数的作业，于是故意写得很长来逃避评分。

第三个陷阱最为狡猾，叫做"选择性遗忘"。当训练系统试图通过复杂的奖励规则来平衡各种因素时，AI有时会学会钻空子。例如，如果系统设定"短而正确的答案得高分，长而错误的答案得低分"，AI可能会学会在不确定答案正确性时故意写得很长，这样即使答错了也不会受到严重惩罚。

研究团队通过对比实验发现，最有效的策略竟然是一个看似简单的方法：让AI在目标长度范围内直接生成答案，而不是先生成长答案再进行截断。这种方法的巧妙之处在于，它避免了AI接触到那些可能产生负面影响的训练样本。就像教孩子写作文，与其让他们先写很长然后再删减，不如一开始就教他们如何在规定字数内完整表达想法。

这种方法的成功揭示了一个重要原理：有时候限制训练数据的复杂性比增加奖励机制的复杂性更加有效。当AI在一个相对简单和一致的环境中学习时，它更容易形成稳定和可靠的行为模式。

五、加速训练的双刃剑：离线策略的利与弊

为了提高训练效率，研究团队还探索了一种叫做"离线策略"的训练方法。这种方法就像让学生用过去的练习题来学习，而不是每次都出全新的题目。虽然这种方法可以大大提高训练速度，但也带来了一些意想不到的挑战。

离线策略的基本思路是重复利用之前生成的AI响应数据。在传统的"在线策略"中，每轮训练都需要让AI对每个问题重新生成答案，这个过程非常耗时。而离线策略允许AI使用几轮之前生成的答案进行学习，这样可以显著减少计算时间。研究团队测试了不同程度的"数据陈旧度"，从使用2轮前的数据到使用16轮前的数据。

结果显示，适度的离线策略确实能够加速学习过程。特别是在长度适应阶段，使用稍微陈旧的数据并不会影响AI的学习效果，反而能让AI更快地掌握长度控制技巧。这就像学生复习以前做过的题目，虽然不是最新的，但仍然能够巩固基础知识。

然而，当数据陈旧程度过高时（比如使用16轮前的数据），就开始出现问题了。研究人员观察到两个明显的警告信号：首先是"熵值爆炸"，AI的策略熵在训练400步后开始急剧上升，这表明AI的思路变得越来越混乱。其次是"长度反弹"，AI在训练过程中学会的长度控制技巧开始失效，输出长度重新开始增长。

这种现象的根本原因在于AI的学习目标发生了漂移。当AI使用过于陈旧的数据进行学习时，这些数据反映的是AI过去的行为模式，而不是当前的最优策略。就像一个进步很快的学生，如果总是根据一个月前的练习情况来调整学习方法，就可能会走回老路，甚至退步。

有趣的是，研究团队发现离线策略的稳定性与训练数据的质量密切相关。当使用高质量的简单题目进行训练时，AI对数据陈旧度的容忍性更高，即使使用较旧的数据也能保持稳定的学习进程。但当训练数据本身就比较困难时，使用陈旧数据会加剧训练的不稳定性。

这个发现为实际应用提供了重要指导：离线策略可以作为提高训练效率的有力工具，但需要谨慎使用。在训练的早期阶段和使用高质量数据时，适度的离线策略是安全有效的。但随着训练的深入，特别是在推理精炼阶段，最好回到在线策略以确保训练的稳定性。

六、跨模型验证：从小到大的一致性发现

为了确保研究发现的普遍性，研究团队在多个不同规模的AI模型上验证了他们的训练策略。从只有6亿参数的小型模型到拥有300亿参数的大型模型，实验结果展现出了令人满意的一致性。

在最小的Qwen3-0.6B模型上，研究团队发现他们的训练方法能够将AI的平均得分从13.33提升到24.58，同时将平均回答长度从14900个词汇压缩到8900个词汇。这就像让一个刚学会写作的小学生在保持文章质量的同时，学会了用更简洁的语言表达想法。

随着模型规模的增大，这种改进效果依然明显。在17亿参数的模型上，AI的表现从35.00提升到38.75，回答长度从17700词汇降低到11200词汇。即使是在更大的模型上，比如80亿参数的Qwen3-8B，改进效果仍然显著，AI在保持高质量推理的同时，回答长度减少了约30%。

特别有趣的是，研究团队测试了一个专门为复杂推理设计的模型Qwen3-4B-Thinking。这个模型原本就具备很强的推理能力，平均得分高达75.83，但代价是极长的回答（平均20900词汇）。经过研究团队的训练方法改进后，模型不仅保持了推理质量（得分76.25），还将回答长度压缩到了16000词汇。这就像让一个啰嗦但博学的教授学会了简洁表达，既保持了知识的深度又提高了沟通效率。

最大规模的验证在300亿参数的模型上进行。即使是如此庞大的模型，研究团队的方法仍然有效。AI在保持相同推理质量的情况下，将回答长度从6900词汇进一步压缩到5100词汇。这个结果特别有意义，因为它表明即使是最先进的大型模型，也还有进一步优化的空间。

跨模型验证的成功证明了研究发现的普遍适用性。无论模型大小如何，训练过程都遵循相同的两阶段模式，都能从简单题目训练中获益，都会在适当的样本数量和奖励机制下表现最佳。这种一致性为将这些发现应用到其他AI系统提供了坚实的理论基础。

更重要的是，研究团队发现不同规模模型的最优训练参数存在一定规律。小型模型需要更多轮次的训练才能达到最佳效果，而大型模型往往能够更快地掌握高效推理技巧。这种规律性为实际应用中的参数选择提供了有价值的参考。

七、实战效果展示：从啰嗦到简洁的华丽转身

为了更直观地展示训练效果，研究团队提供了一些具体的案例对比。这些例子清晰地展现了AI从冗长啰嗦到简洁精准的转变过程。

在一个几何问题的案例中，原始AI的回答就像一个刚学会解题的学生，充满了不必要的重复和解释。AI会说："让我想想这个问题...首先我需要理解题目在问什么...然后我需要回忆相关的公式..."这种表述方式虽然显示了推理过程，但包含了大量冗余信息。

经过训练的AI则表现得像一个经验丰富的数学老师，直接切入要点。它会简洁地说明解题思路，使用恰当的数学符号，避免不必要的解释，但仍然保持推理的完整性和准确性。整个回答变得更加专业和高效。

在另一个计算问题的案例中，对比更加明显。原始AI习惯性地重复题目信息，进行冗长的算术分解，就像担心读者不理解一样反复解释每一个步骤。而优化后的AI则采用了更加直接的方式，保留必要的计算步骤，但去掉了冗余的解释和重复。

研究团队注意到，优化后的AI不仅在形式上变得更简洁，在内容组织上也更加合理。它学会了将推理过程结构化，使用更加正式的数学表达方式，整体风格从对话式转向了技术文档式。这种转变反映出AI真正理解了如何在保持准确性的同时提高表达效率。

更令人印象深刻的是，这种改进不仅仅体现在最终答案上，还体现在整个推理链条的质量上。优化后的AI学会了更好地组织思路，避免推理过程中的迂回和重复，使整个解题过程更加流畅自然。

八、深层机制探索：AI如何学会"言简意赅"

研究团队深入分析了AI学习高效推理背后的深层机制。他们发现，AI学会简洁表达的过程实际上是一个复杂的认知重组过程。

在训练初期，AI的行为模式更像一个不确定的学生，会通过大量的解释和重复来掩盖自己的不确定性。这种行为在心理学上被称为"补偿性冗余"，即通过增加信息量来提高被理解和接受的概率。

随着训练的进行，AI逐渐学会了区分哪些信息是必要的，哪些是冗余的。这个过程类似于人类专家在某个领域获得经验的过程。初学者往往会过度解释，而专家则能够用最少的词汇传达最多的信息。

研究人员通过分析AI的注意力权重分布发现了一个有趣的现象：优化后的AI在处理问题时，注意力更加集中于关键信息，而不是平均分配给所有信息。这种注意力模式的改变反映出AI对任务的理解发生了根本性变化。

另一个重要发现是AI学会了更有效的知识编码方式。原始AI倾向于使用冗长的自然语言描述，而优化后的AI更多地使用符号化和结构化的表达方式。这种转变不仅提高了表达效率，也减少了出错的可能性。

研究团队还观察到，AI在学习过程中形成了一种类似于"思维定式"的机制。一旦AI在某类问题上找到了有效的简洁表达方式，它就会将这种模式推广到类似的问题上。这种泛化能力是AI能够在不同任务间保持一致性能的关键。

最有趣的发现是AI学会了"渐进式推理"。优化后的AI不再从头到尾详细解释每一步，而是建立了一种层次化的推理结构，只在关键节点提供详细解释。这种方式既保证了推理的完整性，又大大提高了表达效率。

说到底，这项研究为我们揭示了AI高效推理的秘密。通过20万GPU小时的大规模实验，研究团队发现AI学习的过程遵循着先适应约束、再优化质量的两阶段规律。更有趣的是，用简单题目训练出来的AI反而在复杂问题上表现更好，这一发现颠覆了我们对AI训练的传统认知。

这些研究成果对AI应用具有重要的实际意义。对于那些需要快速响应的AI服务，比如在线客服或实时翻译，这种高效推理技术可以大大降低计算成本和响应时间。对于教育应用，AI可以像优秀教师一样简洁明了地解释复杂概念。对于科研辅助，AI可以提供结构化、专业化的分析报告。

研究团队的工作还为我们理解智能本身提供了新的视角。真正的智能不仅在于能够解决复杂问题，更在于能够用最简洁的方式表达复杂的思想。这种"言简意赅"的能力，正是将AI从简单的计算工具提升为真正智能助手的关键所在。

当然，这项研究也还存在一些限制。目前的验证主要集中在数学和编程任务上，在创意写作等更加开放的任务上的效果还有待进一步验证。同时，如何在保持高效的同时避免过度简化，也是需要继续探索的问题。

对于想要深入了解这项研究的技术细节的读者，可以通过论文编号arXiv:2602.20945v1查询完整的研究报告。这项工作为AI的未来发展开启了新的可能性，让我们期待更加智能、高效的AI助手早日走进我们的日常生活。

Q&A

Q1：什么是AI高效推理的两阶段训练模式？

A：AI学习高效推理分为两个明显阶段：第一阶段是"长度适应"，AI快速学会将冗长思考压缩到规定长度内，输出长度从6000词汇急剧降到2000词汇；第二阶段是"推理精炼"，AI在长度限制下优化推理质量，就像熟练作家在800字内写出高质量内容。

Q2：为什么用简单题目训练AI效果更好？

A：因为简单题目能提供更多正面反馈，让AI专注学习"如何在保持准确性时提高效率"，而不是"如何避免惩罚"。困难题目会让AI陷入恶性循环，经常答错导致频繁受罚，最终学会的是生成短答案来逃避惩罚，而不是真正的推理能力。

Q3：这种高效推理技术有什么实际应用价值？

A：主要应用于需要快速响应的AI服务，如在线客服、实时翻译等，可大大降低计算成本和响应时间。在教育领域，AI能像优秀教师一样简洁解释复杂概念；在科研辅助方面，可提供结构化的专业分析报告，提高工作效率。

香港大学与腾讯合作解密AI推理：如何让人工智能既聪明又节约

热搜

热门跟贴

热搜

热门跟贴

相关推荐

菲尔兹奖成果首次被AI完整形式化，Gauss20万行代码改写数学史？

大模型的下半场，属于拥有云+AI全栈引擎的玩家

Agent的苦涩觉醒：智能正从语言走向经验

陶哲轩：AI看似在推理，其实是在背答案

行业最大规模具身数据集：10Kh RealOmni-Open DataSet

19岁天才少年做AI应用，下载量超1500万次、年入2亿，反手被行业头部玩家收购

行业最大规模具身数据集！出自简智机器人GenRobot.AI

DeepSeek V4下周上线？原生多模态架构 技术报告同步开放

情感识别不再是分类题：EmotionThinker让SpeechLLM 学会解释情绪

只要3万？机器人三年降到白菜价，周鸿祎大胆预言

AI硬件唱主角、上游供应商秀“肌肉”，中国品牌在MWC2026有哪些亮点？

太卷了！13岁就能进鹅厂做产品经理

卷疯了！腾讯招中学生做产品经理，是创新还是噱头？

小伙是摆自己的新车，却不料对方有真人工智能，这局人工智能败！

女子微信30万存款，被腾讯官方无故冻结，本人对自己钱没有所有权

腾讯邀请中学生试岗产品经理，网友质疑

师傅是数学天才，弟子参加奥数比赛都是降维打击

倒三角符号在数学和物理公式里的意义

PackingStar双智能体博弈，攻克14维难题

这个倒三角 ∇，为什么总在数学和物理公式里出现？

DeepSeek V4下周上线？原生多模态架构技术报告同步开放