这项由香港科技大学(广州)联合清华大学、南洋理工大学、中国人民大学、中国科学技术大学、中国科学院大学等多家机构共同完成的研究,以预印本形式发布于2026年5月,论文编号为arXiv:2604.28123。研究提出了一种名为PRISM的三阶段训练框架,专门用于提升大型多模态模型(即同时能看图、能推理的AI)的训练效果。感兴趣的读者可通过arXiv平台搜索该编号查阅完整论文。
当前训练聪明AI的主流做法,就像教一个孩子先临摹字帖(监督微调,SFT),再通过做题拿奖励来巩固(强化学习,RLVR)。这条路走了很久,效果也不错,但研究团队发现其中藏着一个隐患:临摹字帖这一步,不仅没能让孩子真正学会写字的精髓,反而让他养成了一些坏习惯,而这些坏习惯在后续做题阶段会越来越难纠正。PRISM的核心贡献,就是在"临摹字帖"和"做题拿奖励"之间,专门插入了一个"纠正坏习惯"的环节,从而让整个训练过程更顺畅、效果更显著。
一、从"临摹字帖"到"做题拿奖励",中间那步被忽视了多久
要理解这项研究的价值,先得搞清楚AI模型是怎么被训练出来的。现在训练一个能看图答题的AI(专业上叫"大型多模态模型"),通常分两大步:第一步,给AI看大量高质量的示范答案,让它模仿着学,这个过程叫"监督微调";第二步,给AI出题,答对了给奖励,答错了不奖励甚至惩罚,让AI自己摸索出更好的解题方式,这叫"强化学习"。
这个流程听起来挺合理的,就像先让学生抄课文、背范文,再让学生自己写作文。但问题出在"抄课文"这一步上。当AI在模仿示范答案时,它是在逐字逐句地"背诵",而不是真正理解背后的逻辑。更糟糕的是,这种逐字模仿的方式,会让AI的输出风格逐渐偏离它原本擅长的东西,同时又没能完全学到示范答案的精华。用专业术语说,这叫"分布漂移"——AI的输出分布既没有对准示范数据的分布,又偏离了自己原来的分布,卡在了一个两头不靠的尴尬位置。
在只处理文字的AI上,这个问题还不算太严重。但在需要同时看图和推理的多模态AI上,这个问题会被成倍放大。原因在于,看图这件事和推理这件事的"漂移"方式完全不一样。比如,对于一道几何题,AI可能对图中形状的描述已经学得七七八八了,但对解题步骤的推理逻辑还差得远;或者反过来,推理链条写得头头是道,但对图里的关键视觉信息描述得一塌糊涂。这两种错误方式,用同一套纠正方法根本处理不好。
正因如此,研究团队提出了一个关键问题:能不能在"临摹字帖"和"做题拿奖励"之间,专门加一道工序,针对性地修正这种双重漂移?PRISM就是这道工序的具体实现。
二、三明治结构:PRISM如何在两步之间插入关键的"校准层"
PRISM这个名字是"通过黑盒在线策略蒸馏实现多模态强化学习预对齐"的英文缩写,听起来复杂,但核心思路其实很直观。
整个训练过程被设计成三层结构,就像一个三明治。第一层是"临摹字帖"(监督微调),这一步和以前一样,让AI通过大量示范数据建立基本的推理能力。第三层是"做题拿奖励"(强化学习),这一步也和以前一样,通过自动评判答案对错来进一步提升AI的解题准确率。关键的创新在第二层——"校准层",也就是PRISM的分布对齐阶段。
这个校准层做的事情,可以用一个类比来理解。假设一位新厨师(AI)学了一段时间米其林厨师(示范数据)的菜谱,现在他的炒菜水平有了一定基础,但炒出来的菜和米其林水准还有差距。差距体现在两方面:一是对食材的处理方式(类比"视觉感知",即看图描述)还不够精准,二是烹饪步骤的逻辑(类比"推理过程")还不够严密。
校准层的方案是引入一位专业评审团(叫做"混合专家判别器")。这个评审团由两位专门的专家组成:一位专门评判食材处理是否到位(感知专家),另一位专门评判烹饪逻辑是否合理(推理专家)。新厨师每次炒出一道菜,评审团就会打分,然后把两位专家的评分加权合并,告诉厨师哪里做得好、哪里还差得远。厨师根据这个反馈不断调整,直到炒出来的菜越来越接近米其林水准。
更巧妙的是,这个评审团本身也在同步学习和进化。厨师的水平在提升,评审团的评判标准也在跟着调整,始终保持对最新状态的精准判断,而不是用一套僵化的老标准评判日益精进的厨师。这解决了强化学习中常见的"奖励模型过时"问题。
三、"黑盒蒸馏":连示范老师的脑子都不用看
PRISM还有一个特别值得提的技术细节:它的工作方式是"黑盒"的。
在传统的知识蒸馏方法中(知识蒸馏就是让小AI学大AI),小AI不仅要看大AI给出的答案,还要能访问大AI内部每一步的"心理活动"——专业上叫"logits"(可以理解为大AI在每个词上的置信度分布)。问题是,现实中很多高质量的示范数据来自Gemini、GPT-4这样的商业AI,外人根本访问不到它们的内部参数,自然也得不到这些"心理活动"数据。
PRISM完全绕开了这个限制。它只需要看示范AI给出的最终答案文本,不需要任何内部参数。评审团通过对比"新厨师炒的菜"和"米其林菜谱里的成品菜"之间的差异,就能给出有效的反馈。这种方式被称为"响应级别的对抗游戏"——AI的输出和示范数据在评审团面前展开比较,评审团学会区分两者,AI则努力让自己的输出更难被识别为"外行之作"。整个过程在数学上被形式化为一个"最小最大博弈"(minimax game),AI和评审团互相博弈,共同进步。
这种无需访问示范模型内部参数的特性,让PRISM具有极强的实用价值:现实世界中大量的高质量监督数据都来自不开放源码的商业模型,而PRISM完全可以利用这些数据进行对齐训练。
四、精心烹制的"食材":11.3万条高质量多模态数据的炼成
好的训练方法需要好的数据配合。研究团队为PRISM专门准备了两套数据,就像厨师备菜一样精心。
第一套是规模庞大的基础食材:团队利用了来自同一Gemini模型家族的126万条公开多模态推理示范,这些数据覆盖面广,用于监督微调阶段给AI打下宽泛的基础。
第二套是专门为"校准层"精心烹制的高质量食材:团队从零开始,专门筛选出当前最强的AI模型(包括Gemini等)都答不对的、最难的多模态推理题,然后用Gemini 3 Flash这个高性能AI生成详细的解题示范,每道题的答案都包含三个部分——对图像的精细描述、逐步推理的思考过程、以及最终答案。生成后还要经过三道严格的质量过滤:先过滤掉生成失败或格式不对的,再过滤掉答案明显错误的(由另一个AI担任评判官),最终沉淀出11.3万条高质量数据。这11.3万条数据中,10.7万条用于监督微调,剩下6000条质量最高的留给对齐阶段使用。
为什么要专门找"当前AI答不对的难题"来制造训练数据?这背后有个很有趣的逻辑:对于那些模型已经能轻松答对的题目,再多的训练也不会带来多大进步;只有在那些模型还掌握不好的"盲区"里下功夫,才能真正提升上限。这就好比一个钢琴学生,与其反复练已经烂熟的曲子,不如专门针对自己最难掌握的技巧下功夫。
五、两位"专家评审":感知专家和推理专家各司其职
回到PRISM核心的评审团设计。研究团队为何要专门设置两位独立专家,而不是用一个全能评委打综合分?这背后有很深的考量。
在多模态推理任务里,一个完整的解题回答包含两个本质上不同的部分:对图像内容的描述(比如"图中有三角形,三角形的三条边长分别是...,图中还标注了角度..."),以及基于这些视觉信息的推理链条(比如"根据勾股定理,斜边的平方等于...")。
这两部分的质量问题,性质截然不同。视觉描述的问题往往是"看错了"或"漏看了"——比如把六角星描述成了"星形轮廓"而非"六尖星",或者忽略了某个关键的角度标注。推理的问题则往往是"想错了"或"跳步了"——比如用了错误的公式,或者某个推导步骤不严谨。
如果用一个评委打综合分,当AI在视觉描述上进步了但推理退步了(或反过来),这两种变化的信号会相互抵消,评委给出的分数变化就会模糊不清,AI根本不知道该往哪个方向调整。而两位各司其职的专家,能分别提供清晰的视觉反馈和推理反馈,让AI精准地知道每个维度上的差距在哪里。
实验也印证了这一设计的价值。研究团队专门做了对比实验:把双专家评审替换成一个能力相当的单一评委(计算量相同)。结果显示,单一评委方案的平均分下降了3.4个百分点,在推理密集型任务(WeMath)上的跌幅高达6.0个百分点。这证明了分离视觉和推理反馈的必要性。
此外,研究团队还观察了两位专家在训练过程中的进化轨迹,发现一个有趣的现象:感知专家的评分差距(示范数据得分减去AI输出得分)在训练早期迅速攀升到高峰后很快趋于稳定;而推理专家的评分差距则上升得更缓慢,而且一路上起伏更大,经历更多震荡才逐渐收敛到稳定水平。这说明让AI学会准确描述图像,比让AI学会正确推理要容易一些——视觉感知的对齐速度更快,而推理逻辑的对齐则需要更长时间的反复调整。这两种截然不同的收敛轨迹,本身就是为双专家设计提供支撑的有力证据。
六、三步缺一不可:拆掉任何一层,效果都大打折扣
研究团队对PRISM的三层结构做了系统的"拆解实验",逐一移除某一层,看看会发生什么。
先把校准层(第二层)拆掉,只保留第一层和第三层。这就退化成了传统的"临摹字帖→做题拿奖励"两步流程。结果:平均准确率下跌4.4个百分点。这直接证明了校准层的价值——没有它,AI在进入强化学习阶段时,携带了太多从监督微调遗留的"坏习惯",强化学习无法将其完全纠正。
再把第一层(监督微调)也拆掉,直接从校准层开始,会发生什么?结果更惨:平均准确率暴跌16.8个百分点。道理也很清楚:如果AI在进入校准阶段时,水平和示范数据差距太大,评审团能轻易地一眼看穿AI的输出和示范数据之间的区别,这样的比较几乎没有意义,AI也无从改进。监督微调的作用,正是先把AI的基础水平拉到和示范数据"在同一个量级"的程度,为后续的精细校准创造前提条件。
由此可以理解这三步之间的分工:第一步(监督微调)的任务是"入门",缩短AI和示范数据之间的巨大鸿沟,让校准阶段得以开展;第二步(校准层)的任务是"精调",在更精细的层面上对齐视觉感知和推理风格;第三步(强化学习)的任务是"冲刺",在有了高质量初始状态的基础上,通过对答案正确性的直接反馈来最大化实际表现。三者环环相扣,缺少任何一环,整个系统都会显著退步。
七、让AI说话更少,做事更好:数据效率的意外收获
PRISM还带来了一个意料之外的好处:更高的"语言效率"。
研究团队对比了三种配置的AI在做题时的平均用词量和准确率:原始的基础模型、经过传统"监督微调+强化学习"训练的模型,以及经过PRISM训练的模型。
在数学视觉推理任务(MathVision)上,PRISM训练的模型准确率最高(45.4%),而且平均每道题只用了2889个词;而传统两步训练的模型准确率只有35.5%,却用了5724个词;原始模型准确率36.5%,用了9538个词。
简单说就是:PRISM训练的AI更聪明,而且话更少。这和某种直觉是吻合的——一个真正理解了题目本质的学生,解题过程往往简洁明了;反倒是一知半解的学生,容易写一大堆废话来填充答案篇幅。PRISM的校准过程,可能在客观上帮助AI学会了更精炼地表达推理过程。
八、实验结果:数字背后的进步有多显著
研究团队在两个规模的模型(40亿参数和80亿参数的Qwen3-VL)上,针对数学推理和通用多模态理解共7个标准测试集进行了评测,测试集涵盖MathVista、MathVerse、MathVision、WeMath这四个数学推理测试,以及MMMU、MMMU-Pro、HallusionBench这三个通用理解测试。
在40亿参数版本上,PRISM搭配标准强化学习算法(GRPO)的组合,相比传统"监督微调+GRPO"的组合,7个测试集的平均准确率提升了4.4个百分点。在80亿参数的更大模型上,提升幅度更大,达到6.0个百分点。具体来看,提升最明显的是MathVision(数学视觉推理)和WeMath(类人数学推理)两个测试集,这两个恰恰是对视觉感知和推理逻辑双重要求最高的测试。
更值得关注的是强化学习算法的适用性。研究团队测试了三种不同的强化学习算法:GRPO、DAPO和GSPO,结果显示PRISM对三种算法都带来了一致的提升。这说明校准层的价值不依赖于某一种特定的强化学习方式,而是普遍有效的——无论后续用什么方式"做题拿奖励",有了更好的初始状态,效果就更好。
还有一个颇为微妙的观察:在完成校准层训练但还没进入强化学习阶段时,AI的准确率并没有比监督微调后有明显提升。这不是缺陷,而是设计如此——校准层的目标不是直接提高答题正确率,而是调整AI输出的"风格"和"结构",使其更接近高质量示范数据的分布模式。这种调整的价值,在进入强化学习阶段后才充分体现出来,因为此时AI有了一个更扎实、更少偏差的起点。
九、越强的模型,越怕"临摹"拖后腿
研究发现了一个反直觉的规律:模型本身越强,监督微调造成的伤害往往越大。
原始的Qwen3-VL-8B(80亿参数)作为基础模型,在7个测试集上的平均得分是63.3分。经过监督微调后,分数不升反降,变成了58.1分——平均下跌5.2分。而且在后续的强化学习阶段,无论用GRPO还是GSPO算法,分数只能勉强恢复到63.3分左右,和原始模型持平,并没有真正的提升。
反过来,PRISM+GRPO组合下的80亿参数模型最终得分达到69.3分,比原始模型高出整整6分。
这个现象背后的逻辑是:一个本来就很强的模型,已经掌握了一套成熟的推理分布。当你强迫它去逐字逐句模仿示范数据时,这种模仿会破坏它原有的优势分布,而模仿的收益(学到示范数据的精华)又不足以弥补这种破坏。越强的模型,这种"破坏原有优势"的副作用越明显。而PRISM通过校准层修复了这种破坏,让强大的基础能力得以保留并在强化学习中进一步发挥。
十、AI的进步轨迹可以被"看见"
研究团队还设计了一种巧妙的方法来直观展示AI在不同训练阶段的变化。由于直接观察高维度的AI输出分布太抽象,团队选择了两个容易量化的"结构性代理指标":推理链条中包含的步骤数,以及图像描述中列出的具体要素数量。
在基础模型阶段,AI生成的推理步骤数和描述要素数,与高质量示范数据相比差距明显——步骤偏少,描述也偏简略。经过监督微调之后,两项指标都向示范数据靠近了,但仍有明显差距,而且图像描述这一项还出现了"过头"的问题——AI写了比示范数据还多的描述要素,说明它在这里过度模仿,矫枉过正了。进入校准层之后,两项指标都进一步向示范数据收敛,过度描述的问题也得到了修正,整体分布和示范数据高度吻合。更重要的是,在最后的强化学习阶段完成后,这种分布对齐的效果依然保持稳定,没有在优化答案正确性的过程中退化回去。
这意味着PRISM的校准效果是持久的,不会被后续的强化学习训练所冲刷消除。校准层为AI塑造的"推理风格",成为了一个稳固的基底,支撑着强化学习在此之上发挥出更大的效能。
说到底,PRISM做的事情,就是在AI训练流水线里,把长期被忽视的那个"中间地带"认真对待了一次。以前大家要么专注于让AI更好地模仿示范(改进监督微调),要么专注于让强化学习算法更稳定高效(改进GRPO等算法),却很少有人认真思考:从"模仿阶段"到"自我优化阶段"的过渡本身,是否足够平稳?PRISM给出的答案是:这个过渡根本没有被认真对待过,而一旦认真对待,效果就会显著提升。
对于普通用户来说,这意味着未来AI助手的推理能力和视觉理解能力可能会同步、均衡地提升,而不是出现"会算但看不准图"或"描述准确但推理混乱"这样的偏科现象。这对依赖AI解决涉及图表、示意图、空间关系等视觉信息问题的场景——比如医学影像分析、工程图纸理解、数学辅导——来说,是实实在在的进步。
有兴趣深入了解技术细节的读者,可以通过arXiv平台搜索论文编号arXiv:2604.28123查阅完整原文,其中包含完整的算法伪代码、超参数设置,以及更多实验细节和样本示例。
Q&A
Q1:PRISM的校准层具体是如何训练的,和普通的监督微调有什么区别?
A:普通监督微调是让AI直接对着示范答案逐字学习,类似于照着字帖临摹。PRISM的校准层则不让AI直接模仿,而是设置一个由感知专家和推理专家组成的评审团,AI生成自己的答案,评审团判断这个答案和示范数据有多像,然后反馈给AI。AI的目标是让自己的答案越来越难被评审团识别为"非示范数据"。两者在目标和机制上都有本质区别,前者是逐词模仿,后者是整体风格对齐。
Q2:PRISM为什么需要专门收集难题数据,用已有的公开数据不行吗?
A:已有的126万条公开数据质量参差不齐,很多题目的答案缺乏详细的视觉描述和完整的推理步骤,而这两点恰恰是PRISM校准层所依赖的核心内容。更重要的是,公开数据中大量是当前AI已经能轻松答对的题目,用这些题目做对齐训练效果有限。研究团队专门筛选当前最强模型都答不对的难题,确保训练数据能真正触及AI的能力边界。
Q3:PRISM需要额外的训练开销,比直接用更多数据做监督微调划算吗?
A:研究团队的消融实验给出了直接对比:仅用10.7万条精选数据(而非全部137万条数据)做监督微调,再加上PRISM的校准层,最终平均得分(62.5分)仍然高于用全部137万条数据做监督微调但不加校准层的方案(61.8分)。这说明校准层带来的提升不能简单地用"堆更多监督数据"来替代。额外的计算开销(仅500步的校准训练)换来的性能提升是值得的。
热门跟贴