香港科技大学（广州）等机构联合提出PRISM|广州|推理|数学|新论文|算法

这项由香港科技大学（广州）联合清华大学、南洋理工大学、中国人民大学、中国科学技术大学、中国科学院大学等多家机构共同完成的研究，以预印本形式发布于2026年5月，论文编号为arXiv:2604.28123。研究提出了一种名为PRISM的三阶段训练框架，专门用于提升大型多模态模型（即同时能看图、能推理的AI）的训练效果。感兴趣的读者可通过arXiv平台搜索该编号查阅完整论文。

当前训练聪明AI的主流做法，就像教一个孩子先临摹字帖（监督微调，SFT），再通过做题拿奖励来巩固（强化学习，RLVR）。这条路走了很久，效果也不错，但研究团队发现其中藏着一个隐患：临摹字帖这一步，不仅没能让孩子真正学会写字的精髓，反而让他养成了一些坏习惯，而这些坏习惯在后续做题阶段会越来越难纠正。PRISM的核心贡献，就是在"临摹字帖"和"做题拿奖励"之间，专门插入了一个"纠正坏习惯"的环节，从而让整个训练过程更顺畅、效果更显著。

一、从"临摹字帖"到"做题拿奖励"，中间那步被忽视了多久

要理解这项研究的价值，先得搞清楚AI模型是怎么被训练出来的。现在训练一个能看图答题的AI（专业上叫"大型多模态模型"），通常分两大步：第一步，给AI看大量高质量的示范答案，让它模仿着学，这个过程叫"监督微调"；第二步，给AI出题，答对了给奖励，答错了不奖励甚至惩罚，让AI自己摸索出更好的解题方式，这叫"强化学习"。

这个流程听起来挺合理的，就像先让学生抄课文、背范文，再让学生自己写作文。但问题出在"抄课文"这一步上。当AI在模仿示范答案时，它是在逐字逐句地"背诵"，而不是真正理解背后的逻辑。更糟糕的是，这种逐字模仿的方式，会让AI的输出风格逐渐偏离它原本擅长的东西，同时又没能完全学到示范答案的精华。用专业术语说，这叫"分布漂移"——AI的输出分布既没有对准示范数据的分布，又偏离了自己原来的分布，卡在了一个两头不靠的尴尬位置。

在只处理文字的AI上，这个问题还不算太严重。但在需要同时看图和推理的多模态AI上，这个问题会被成倍放大。原因在于，看图这件事和推理这件事的"漂移"方式完全不一样。比如，对于一道几何题，AI可能对图中形状的描述已经学得七七八八了，但对解题步骤的推理逻辑还差得远；或者反过来，推理链条写得头头是道，但对图里的关键视觉信息描述得一塌糊涂。这两种错误方式，用同一套纠正方法根本处理不好。

正因如此，研究团队提出了一个关键问题：能不能在"临摹字帖"和"做题拿奖励"之间，专门加一道工序，针对性地修正这种双重漂移？PRISM就是这道工序的具体实现。

二、三明治结构：PRISM如何在两步之间插入关键的"校准层"

PRISM这个名字是"通过黑盒在线策略蒸馏实现多模态强化学习预对齐"的英文缩写，听起来复杂，但核心思路其实很直观。

整个训练过程被设计成三层结构，就像一个三明治。第一层是"临摹字帖"（监督微调），这一步和以前一样，让AI通过大量示范数据建立基本的推理能力。第三层是"做题拿奖励"（强化学习），这一步也和以前一样，通过自动评判答案对错来进一步提升AI的解题准确率。关键的创新在第二层——"校准层"，也就是PRISM的分布对齐阶段。

这个校准层做的事情，可以用一个类比来理解。假设一位新厨师（AI）学了一段时间米其林厨师（示范数据）的菜谱，现在他的炒菜水平有了一定基础，但炒出来的菜和米其林水准还有差距。差距体现在两方面：一是对食材的处理方式（类比"视觉感知"，即看图描述）还不够精准，二是烹饪步骤的逻辑（类比"推理过程"）还不够严密。

校准层的方案是引入一位专业评审团（叫做"混合专家判别器"）。这个评审团由两位专门的专家组成：一位专门评判食材处理是否到位（感知专家），另一位专门评判烹饪逻辑是否合理（推理专家）。新厨师每次炒出一道菜，评审团就会打分，然后把两位专家的评分加权合并，告诉厨师哪里做得好、哪里还差得远。厨师根据这个反馈不断调整，直到炒出来的菜越来越接近米其林水准。

更巧妙的是，这个评审团本身也在同步学习和进化。厨师的水平在提升，评审团的评判标准也在跟着调整，始终保持对最新状态的精准判断，而不是用一套僵化的老标准评判日益精进的厨师。这解决了强化学习中常见的"奖励模型过时"问题。

三、"黑盒蒸馏"：连示范老师的脑子都不用看

PRISM还有一个特别值得提的技术细节：它的工作方式是"黑盒"的。

在传统的知识蒸馏方法中（知识蒸馏就是让小AI学大AI），小AI不仅要看大AI给出的答案，还要能访问大AI内部每一步的"心理活动"——专业上叫"logits"（可以理解为大AI在每个词上的置信度分布）。问题是，现实中很多高质量的示范数据来自Gemini、GPT-4这样的商业AI，外人根本访问不到它们的内部参数，自然也得不到这些"心理活动"数据。

PRISM完全绕开了这个限制。它只需要看示范AI给出的最终答案文本，不需要任何内部参数。评审团通过对比"新厨师炒的菜"和"米其林菜谱里的成品菜"之间的差异，就能给出有效的反馈。这种方式被称为"响应级别的对抗游戏"——AI的输出和示范数据在评审团面前展开比较，评审团学会区分两者，AI则努力让自己的输出更难被识别为"外行之作"。整个过程在数学上被形式化为一个"最小最大博弈"（minimax game），AI和评审团互相博弈，共同进步。

这种无需访问示范模型内部参数的特性，让PRISM具有极强的实用价值：现实世界中大量的高质量监督数据都来自不开放源码的商业模型，而PRISM完全可以利用这些数据进行对齐训练。

四、精心烹制的"食材"：11.3万条高质量多模态数据的炼成

好的训练方法需要好的数据配合。研究团队为PRISM专门准备了两套数据，就像厨师备菜一样精心。

第一套是规模庞大的基础食材：团队利用了来自同一Gemini模型家族的126万条公开多模态推理示范，这些数据覆盖面广，用于监督微调阶段给AI打下宽泛的基础。

第二套是专门为"校准层"精心烹制的高质量食材：团队从零开始，专门筛选出当前最强的AI模型（包括Gemini等）都答不对的、最难的多模态推理题，然后用Gemini 3 Flash这个高性能AI生成详细的解题示范，每道题的答案都包含三个部分——对图像的精细描述、逐步推理的思考过程、以及最终答案。生成后还要经过三道严格的质量过滤：先过滤掉生成失败或格式不对的，再过滤掉答案明显错误的（由另一个AI担任评判官），最终沉淀出11.3万条高质量数据。这11.3万条数据中，10.7万条用于监督微调，剩下6000条质量最高的留给对齐阶段使用。

为什么要专门找"当前AI答不对的难题"来制造训练数据？这背后有个很有趣的逻辑：对于那些模型已经能轻松答对的题目，再多的训练也不会带来多大进步；只有在那些模型还掌握不好的"盲区"里下功夫，才能真正提升上限。这就好比一个钢琴学生，与其反复练已经烂熟的曲子，不如专门针对自己最难掌握的技巧下功夫。

五、两位"专家评审"：感知专家和推理专家各司其职

回到PRISM核心的评审团设计。研究团队为何要专门设置两位独立专家，而不是用一个全能评委打综合分？这背后有很深的考量。

在多模态推理任务里，一个完整的解题回答包含两个本质上不同的部分：对图像内容的描述（比如"图中有三角形，三角形的三条边长分别是...，图中还标注了角度..."），以及基于这些视觉信息的推理链条（比如"根据勾股定理，斜边的平方等于..."）。

这两部分的质量问题，性质截然不同。视觉描述的问题往往是"看错了"或"漏看了"——比如把六角星描述成了"星形轮廓"而非"六尖星"，或者忽略了某个关键的角度标注。推理的问题则往往是"想错了"或"跳步了"——比如用了错误的公式，或者某个推导步骤不严谨。

如果用一个评委打综合分，当AI在视觉描述上进步了但推理退步了（或反过来），这两种变化的信号会相互抵消，评委给出的分数变化就会模糊不清，AI根本不知道该往哪个方向调整。而两位各司其职的专家，能分别提供清晰的视觉反馈和推理反馈，让AI精准地知道每个维度上的差距在哪里。

实验也印证了这一设计的价值。研究团队专门做了对比实验：把双专家评审替换成一个能力相当的单一评委（计算量相同）。结果显示，单一评委方案的平均分下降了3.4个百分点，在推理密集型任务（WeMath）上的跌幅高达6.0个百分点。这证明了分离视觉和推理反馈的必要性。

此外，研究团队还观察了两位专家在训练过程中的进化轨迹，发现一个有趣的现象：感知专家的评分差距（示范数据得分减去AI输出得分）在训练早期迅速攀升到高峰后很快趋于稳定；而推理专家的评分差距则上升得更缓慢，而且一路上起伏更大，经历更多震荡才逐渐收敛到稳定水平。这说明让AI学会准确描述图像，比让AI学会正确推理要容易一些——视觉感知的对齐速度更快，而推理逻辑的对齐则需要更长时间的反复调整。这两种截然不同的收敛轨迹，本身就是为双专家设计提供支撑的有力证据。

六、三步缺一不可：拆掉任何一层，效果都大打折扣

研究团队对PRISM的三层结构做了系统的"拆解实验"，逐一移除某一层，看看会发生什么。

先把校准层（第二层）拆掉，只保留第一层和第三层。这就退化成了传统的"临摹字帖→做题拿奖励"两步流程。结果：平均准确率下跌4.4个百分点。这直接证明了校准层的价值——没有它，AI在进入强化学习阶段时，携带了太多从监督微调遗留的"坏习惯"，强化学习无法将其完全纠正。

再把第一层（监督微调）也拆掉，直接从校准层开始，会发生什么？结果更惨：平均准确率暴跌16.8个百分点。道理也很清楚：如果AI在进入校准阶段时，水平和示范数据差距太大，评审团能轻易地一眼看穿AI的输出和示范数据之间的区别，这样的比较几乎没有意义，AI也无从改进。监督微调的作用，正是先把AI的基础水平拉到和示范数据"在同一个量级"的程度，为后续的精细校准创造前提条件。

由此可以理解这三步之间的分工：第一步（监督微调）的任务是"入门"，缩短AI和示范数据之间的巨大鸿沟，让校准阶段得以开展；第二步（校准层）的任务是"精调"，在更精细的层面上对齐视觉感知和推理风格；第三步（强化学习）的任务是"冲刺"，在有了高质量初始状态的基础上，通过对答案正确性的直接反馈来最大化实际表现。三者环环相扣，缺少任何一环，整个系统都会显著退步。

七、让AI说话更少，做事更好：数据效率的意外收获

PRISM还带来了一个意料之外的好处：更高的"语言效率"。

研究团队对比了三种配置的AI在做题时的平均用词量和准确率：原始的基础模型、经过传统"监督微调+强化学习"训练的模型，以及经过PRISM训练的模型。

在数学视觉推理任务（MathVision）上，PRISM训练的模型准确率最高（45.4%），而且平均每道题只用了2889个词；而传统两步训练的模型准确率只有35.5%，却用了5724个词；原始模型准确率36.5%，用了9538个词。

简单说就是：PRISM训练的AI更聪明，而且话更少。这和某种直觉是吻合的——一个真正理解了题目本质的学生，解题过程往往简洁明了；反倒是一知半解的学生，容易写一大堆废话来填充答案篇幅。PRISM的校准过程，可能在客观上帮助AI学会了更精炼地表达推理过程。

八、实验结果：数字背后的进步有多显著

研究团队在两个规模的模型（40亿参数和80亿参数的Qwen3-VL）上，针对数学推理和通用多模态理解共7个标准测试集进行了评测，测试集涵盖MathVista、MathVerse、MathVision、WeMath这四个数学推理测试，以及MMMU、MMMU-Pro、HallusionBench这三个通用理解测试。

在40亿参数版本上，PRISM搭配标准强化学习算法（GRPO）的组合，相比传统"监督微调+GRPO"的组合，7个测试集的平均准确率提升了4.4个百分点。在80亿参数的更大模型上，提升幅度更大，达到6.0个百分点。具体来看，提升最明显的是MathVision（数学视觉推理）和WeMath（类人数学推理）两个测试集，这两个恰恰是对视觉感知和推理逻辑双重要求最高的测试。

更值得关注的是强化学习算法的适用性。研究团队测试了三种不同的强化学习算法：GRPO、DAPO和GSPO，结果显示PRISM对三种算法都带来了一致的提升。这说明校准层的价值不依赖于某一种特定的强化学习方式，而是普遍有效的——无论后续用什么方式"做题拿奖励"，有了更好的初始状态，效果就更好。

还有一个颇为微妙的观察：在完成校准层训练但还没进入强化学习阶段时，AI的准确率并没有比监督微调后有明显提升。这不是缺陷，而是设计如此——校准层的目标不是直接提高答题正确率，而是调整AI输出的"风格"和"结构"，使其更接近高质量示范数据的分布模式。这种调整的价值，在进入强化学习阶段后才充分体现出来，因为此时AI有了一个更扎实、更少偏差的起点。

九、越强的模型，越怕"临摹"拖后腿

研究发现了一个反直觉的规律：模型本身越强，监督微调造成的伤害往往越大。

原始的Qwen3-VL-8B（80亿参数）作为基础模型，在7个测试集上的平均得分是63.3分。经过监督微调后，分数不升反降，变成了58.1分——平均下跌5.2分。而且在后续的强化学习阶段，无论用GRPO还是GSPO算法，分数只能勉强恢复到63.3分左右，和原始模型持平，并没有真正的提升。

反过来，PRISM+GRPO组合下的80亿参数模型最终得分达到69.3分，比原始模型高出整整6分。

这个现象背后的逻辑是：一个本来就很强的模型，已经掌握了一套成熟的推理分布。当你强迫它去逐字逐句模仿示范数据时，这种模仿会破坏它原有的优势分布，而模仿的收益（学到示范数据的精华）又不足以弥补这种破坏。越强的模型，这种"破坏原有优势"的副作用越明显。而PRISM通过校准层修复了这种破坏，让强大的基础能力得以保留并在强化学习中进一步发挥。

十、AI的进步轨迹可以被"看见"

研究团队还设计了一种巧妙的方法来直观展示AI在不同训练阶段的变化。由于直接观察高维度的AI输出分布太抽象，团队选择了两个容易量化的"结构性代理指标"：推理链条中包含的步骤数，以及图像描述中列出的具体要素数量。

在基础模型阶段，AI生成的推理步骤数和描述要素数，与高质量示范数据相比差距明显——步骤偏少，描述也偏简略。经过监督微调之后，两项指标都向示范数据靠近了，但仍有明显差距，而且图像描述这一项还出现了"过头"的问题——AI写了比示范数据还多的描述要素，说明它在这里过度模仿，矫枉过正了。进入校准层之后，两项指标都进一步向示范数据收敛，过度描述的问题也得到了修正，整体分布和示范数据高度吻合。更重要的是，在最后的强化学习阶段完成后，这种分布对齐的效果依然保持稳定，没有在优化答案正确性的过程中退化回去。

这意味着PRISM的校准效果是持久的，不会被后续的强化学习训练所冲刷消除。校准层为AI塑造的"推理风格"，成为了一个稳固的基底，支撑着强化学习在此之上发挥出更大的效能。

说到底，PRISM做的事情，就是在AI训练流水线里，把长期被忽视的那个"中间地带"认真对待了一次。以前大家要么专注于让AI更好地模仿示范（改进监督微调），要么专注于让强化学习算法更稳定高效（改进GRPO等算法），却很少有人认真思考：从"模仿阶段"到"自我优化阶段"的过渡本身，是否足够平稳？PRISM给出的答案是：这个过渡根本没有被认真对待过，而一旦认真对待，效果就会显著提升。

对于普通用户来说，这意味着未来AI助手的推理能力和视觉理解能力可能会同步、均衡地提升，而不是出现"会算但看不准图"或"描述准确但推理混乱"这样的偏科现象。这对依赖AI解决涉及图表、示意图、空间关系等视觉信息问题的场景——比如医学影像分析、工程图纸理解、数学辅导——来说，是实实在在的进步。

有兴趣深入了解技术细节的读者，可以通过arXiv平台搜索论文编号arXiv:2604.28123查阅完整原文，其中包含完整的算法伪代码、超参数设置，以及更多实验细节和样本示例。

Q&A

Q1：PRISM的校准层具体是如何训练的，和普通的监督微调有什么区别？

A：普通监督微调是让AI直接对着示范答案逐字学习，类似于照着字帖临摹。PRISM的校准层则不让AI直接模仿，而是设置一个由感知专家和推理专家组成的评审团，AI生成自己的答案，评审团判断这个答案和示范数据有多像，然后反馈给AI。AI的目标是让自己的答案越来越难被评审团识别为"非示范数据"。两者在目标和机制上都有本质区别，前者是逐词模仿，后者是整体风格对齐。

Q2：PRISM为什么需要专门收集难题数据，用已有的公开数据不行吗？

A：已有的126万条公开数据质量参差不齐，很多题目的答案缺乏详细的视觉描述和完整的推理步骤，而这两点恰恰是PRISM校准层所依赖的核心内容。更重要的是，公开数据中大量是当前AI已经能轻松答对的题目，用这些题目做对齐训练效果有限。研究团队专门筛选当前最强模型都答不对的难题，确保训练数据能真正触及AI的能力边界。

Q3：PRISM需要额外的训练开销，比直接用更多数据做监督微调划算吗？

A：研究团队的消融实验给出了直接对比：仅用10.7万条精选数据（而非全部137万条数据）做监督微调，再加上PRISM的校准层，最终平均得分（62.5分）仍然高于用全部137万条数据做监督微调但不加校准层的方案（61.8分）。这说明校准层带来的提升不能简单地用"堆更多监督数据"来替代。额外的计算开销（仅500步的校准训练）换来的性能提升是值得的。