来源:市场资讯
(来源:科技行者)
这项由斯坦福大学、清华大学、宾夕法尼亚大学及亚马逊前沿AI研究院联合开展的研究,于2026年4月25日以预印本形式发布,论文编号为arXiv:2604.23380,感兴趣的读者可通过该编号检索完整原文。
**一张AI生成的图,背后有多少"调教"的故事**
你或许用过那些能根据文字描述生成精美图片的AI工具——输入"一只穿宇航服的猫坐在月球上",几秒钟后一幅高清画面就出现了。这类工具背后,有一类叫做"扩散模型"的技术在默默运作。这种技术的工作方式,有点像是把一张布满噪点的模糊图像,一点一点地"去噪",最终还原成清晰漂亮的画面。
然而,AI生成的图片并不总是令人满意。有时候它画出的马多了一条腿,有时候文字渲染得一塌糊涂,有时候生成的场景根本和你描述的对不上号。正因如此,研究人员一直在探索如何在模型训练完成之后,再对它进行一轮"精调"——让它更符合人类的审美偏好,或者更准确地理解指令。这个过程,在技术上被称为"强化学习后训练"。
强化学习,可以用一个简单的比喻来理解:你在教一只小狗学新技能。每当它做对了,你就给它一块饼干作为奖励;做错了,你就不给。慢慢地,小狗就学会了你想要它做的事情。对于AI图像生成模型来说,"奖励"可以是人类觉得图片好看与否的评分,或者图片中的文字是否识别正确,等等。
然而,把强化学习用在扩散模型上,一直是一件让研究者头疼的事情。这就是这项研究要解决的核心问题。
**一、扩散模型的"概率难题":为什么强化学习很难直接套用**
要理解这个困难,得先明白强化学习中一个关键的概念:政策梯度方法。这类方法的核心思想,是计算模型当前生成某个结果的"概率",然后根据这个概率和奖励信号,来决定应该朝哪个方向调整模型参数。就像导航软件一样,它需要知道你现在在哪里(当前概率),才能告诉你该往哪里走(梯度更新方向)。
问题在于,扩散模型生成一张图片,并不是一步完成的,而是经过几十甚至上百步的去噪过程。要精确计算"模型生成某张具体图片的概率",理论上需要对所有这些步骤的概率做一个复杂的积分运算——而这个计算在数学上几乎无法处理,被称为"难以追踪的似然函数"。
面对这个难题,过去的研究走出了两条截然不同的路。
第一条路是把整个生成过程建模为一个"马尔可夫决策过程",简称MDP。通俗地说,就是把图像生成拆解成一连串小步骤,每一步都是一个"状态-动作"对,每一步的概率都是可以精确计算的高斯分布。这样一来,就可以把所有步骤的概率乘起来,得到整个轨迹的概率,进而使用标准的强化学习方法。DanceGRPO、BranchGRPO、MixGRPO等方法都属于这一类。
这条路在理论上很严谨,但实践中有三个明显的短板。其一,由于需要对每一步都做优化,训练收敛很慢,效率低下。其二,这种方式要求采样过程必须是"一阶随机微分方程"的离散化形式,也就是说只能用某些特定的采样器,无法使用效率更高的高阶求解器。其三,优化和采样被紧密捆绑在一起,实现起来灵活性很差,导致方法越来越复杂、超参数越来越多。MixGRPO为了提升效率,引入了混合ODE-SDE采样和滑动窗口调度;BranchGRPO则把采样过程改造成树状分支结构。这些改进确实有效,但代价是大幅增加了算法的复杂度。
第二条路则简洁得多:直接用扩散模型训练时的损失函数,作为"模型概率"的近似替代,也就是所谓的"ELBO近似"。ELBO是"证据下界"的缩写,可以理解为模型真实概率的一个下界估计——虽然不是精确值,但方向是对的。这种做法跟模型预训练的目标高度一致,实现起来也非常自然。
然而,之前的研究(包括DDPO和FPO)表明,这种ELBO近似方法在图像生成任务上表现不佳,训练不稳定,效果远不如MDP方法。于是它渐渐被主流研究忽视,沦为"看上去可行但实际不好用"的角色。
这项研究的核心主张是:这个结论是错误的。ELBO近似方法之所以表现差,不是因为它本身有根本性缺陷,而是因为过去的实现方式存在一个关键问题——方差过大,导致训练信号被噪声淹没。只要解决这个问题,ELBO方法不仅可以稳定运行,还能超越复杂的MDP方法。
**二、"噪声淹没信号":为什么ELBO近似会失稳**
为了理解这个问题,可以用一个称重的比喻。你想知道两个苹果哪个更重,于是用一杆秤来称量。如果这杆秤本身的误差非常小,你称出的结果基本是准确的,可以放心比较。但如果秤的误差很大,今天量同一个苹果是100克,明天量又是120克,那两个苹果之间10克的差异就完全淹没在误差里了,你根本无法判断哪个更重。
在强化学习中,"重要性比率"是一个关键量,它反映当前模型和旧版模型在生成同一张图片时的概率比值,用来衡量模型更新的幅度。而这个比率,需要通过ELBO近似来估算。如果ELBO估算本身的方差很大,那算出来的重要性比率就会极不稳定——有时高估,有时低估——最终导致梯度更新方向混乱,训练崩溃。
研究团队通过实验发现,ELBO方差大的根本原因,在于扩散过程中不同时间步的损失值差异悬殊。具体来说,在噪声比较多的时间步(接近纯噪声),模型的预测损失通常很大;而在噪声较少的时间步(接近最终图像),损失相对较小。这种差异导致每次随机采样几个时间步来估算ELBO时,估算结果会随采样点的不同而剧烈波动。
更糟糕的是,他们还发现梯度的大小与ELBO估算值的大小直接相关——ELBO估算越不稳定,梯度也越不稳定。这形成了一个恶性循环:不稳定的估算产生噪声梯度,噪声梯度无法准确传递奖励信号,训练自然就陷入混乱。
**三、三把"减震器":如何降低ELBO的方差**
针对上述问题,研究团队设计了三种技术来降低ELBO估算的方差,每一种都对应一个具体的误差来源。
第一种技术叫做"组内共享时间步-噪声对"。在GRPO算法中,模型会对同一个文本提示生成一组图片(比如12张),然后通过比较这组图片的奖励来计算"相对优势"——也就是哪张图比平均水平好,哪张比平均水平差。这种相对比较要有意义,前提是对所有图片的评估尺度必须一致。
然而,如果每张图片在估算ELBO时各自随机采样不同的时间步,就会出现这样的情况:图片A的ELBO是用噪声较多的时间步估算的,整体数值偏大;图片B的ELBO是用噪声较少的时间步估算的,整体数值偏小。于是A看起来"概率更高",B看起来"概率更低",但这种差异完全是采样随机性造成的,和图片本身的质量没有任何关系。计算出来的相对优势就失真了。
解决方案很直接:对同一个提示生成的所有图片,强制使用完全相同的一组时间步和噪声样本来估算ELBO。这样一来,所有图片都站在同一把"秤"上被称量,组内的相对比较就有了真正的意义。实验结果显示,这一措施将组内ELBO方差的变异系数从0.170大幅降低到了0.038,效果非常显著。
第二种技术叫做"分层时间步采样"。即便对同一批图片使用共享的时间步,如果这些时间步是从整个噪声范围内随机选取的,仍然可能存在采样不均匀的问题——比如恰好抽到了很多高噪声时间步,或者很多低噪声时间步,导致估算偏差。
分层采样的做法是:把整个时间范围均匀划分成若干个等长的区间,然后从每个区间里各取一个时间步。这就像是在统计选举结果时,不是随机找一些人问,而是确保每个地区都有代表——保证了采样的均匀性和代表性,进一步降低了因采样偏差引入的方差。
第三种技术叫做"自适应损失权重"。这一技术的灵感来自之前的工作。首先,它将模型的输出重新参数化为"x预测"形式——也就是让模型直接预测干净图像,而不是预测噪声。这种参数化方式会隐式地给高噪声时间步赋予更大的权重,与人类感知中"整体结构比细节更重要"的直觉相符,同时也有助于稳定训练。
在此基础上,还引入了一个自归一化权重:每个样本的损失,除以该样本损失L1范数的均值(且这个均值不参与梯度计算)。这种归一化的效果,类似于把不同单位的物理量统一换算到同一个量纲下——不管原始损失的绝对数值大小如何,经过归一化后,不同样本之间的梯度量级大致相当,模型参数的更新就不会因为某些损失值异常偏大而失控。
这三种技术叠加使用,将整体ELBO方差的变异系数从0.230降低到了0.128,同时也削弱了梯度大小对ELBO估算幅度的敏感性,用来衡量这种相关性的决定系数从0.406降低到0.328。更重要的是,在实际训练中,这些改进让模型从"严重不稳定"变成了"平稳收敛"。
**四、三个"刹车系统":如何控制梯度更新的步子不要迈太大**
降低方差解决了"信号被噪声淹没"的问题,但稳定的在线强化学习还需要另一道保障:防止每次梯度更新的幅度过大,导致模型一步走偏。研究团队总结了三种可以灵活搭配使用的梯度步控制技术,根据不同的训练场景选择最合适的组合。
第一种是"重要性比率截断",这是从PPO算法继承而来的经典技巧。重要性比率反映了当前模型和旧模型在同一张图片上的概率比值——如果比值太大,说明模型更新幅度过大,当前模型和旧模型差异悬殊,这时基于旧模型采样数据来更新当前模型就不再可靠。截断技术通过强制把比率限制在一个范围内(比如0.994到1.006之间),防止单次更新走得太远。在大多数标准训练场景下,这一技术就足以保证训练稳定。
第二种是"KL散度惩罚"。KL散度可以理解为当前模型和参考模型之间的"差异程度"。在训练目标中加入KL惩罚项,就像给模型加了一根弹性绳——它可以往更好的方向走,但走太远就会被弹回来。这对于保留模型在早期阶段学会的能力特别有用,防止在某一任务上过度优化时把其他能力"遗忘"了。
为了避免额外维护一个参考模型的开销,研究团队采用了一个聪明的做法:用行为策略(也就是上一轮迭代的模型参数)来代替参考模型,只需要存储一组损失数值,而不是一整套模型权重。此外,对于连续时间扩散模型,KL散度本身也有一个简洁的解析表达式,可以直接用来计算。
实验表明,在SD 3.5M的多阶段训练中,KL惩罚能够有效保住前几个阶段学到的能力。比如,在专门针对文字识别任务训练的最后一个阶段,不加KL惩罚的模型在图文对齐评分(GenEval)上从0.92跌到0.87,而加了KL惩罚的模型则维持在0.91。然而,KL惩罚无法抑制FLUX.1-dev训练中出现的"损失尖峰",在这种场景下,重要性比率截断反而更为有效。
第三种是"优势软截断"。在某些特殊场景下——比如每次迭代只做一次梯度更新(也就是完全在线的训练方式),或者采样步数很少的时候——上面两种技术都失效了,因为当前模型和旧模型是同一个,重要性比率恒为1,截断自然也没有效果。
针对这种情况,研究团队提出用双曲正切函数对"优势值"进行软截断。优势值反映的是某张图片的奖励比组内平均水平高了多少或低了多少。直接使用原始优势值,极端情况下某张图片的优势值可能非常大,导致梯度异常猛烈。软截断的方式通过双曲正切函数,对小的优势值几乎不做修改(保留灵敏度),但对极端的优势值则平滑地压缩其幅度(避免失控)。实验证明,这一技术在Stage-1的完全在线训练中成功稳定了训练曲线,在采样步数从25减少到16时也起到了额外的保护作用。
不过,这三种技术并非在所有场景下都各有优势。研究团队特别指出,在专门针对GenEval这类"粗粒度"评分任务训练时,优势软截断的表现反而不如重要性比率截断。这意味着在实践中需要根据具体任务和训练配置,有针对性地选择合适的组合方案。
**五、整体算法与训练流程**
把上述所有技术整合在一起,就构成了V-GRPO(Variational GRPO)的完整算法。它的工作流程可以用"三步走"来概括。
第一步是采样阶段:用当前模型(行为策略)对一批文本提示各生成一组图片,同时为每个提示抽取一组共享的时间步-噪声对。第二步是评估阶段:用一个或多个奖励函数给每张图片打分,计算组内相对优势,并用行为策略计算ELBO基准值。第三步是优化阶段:对每个小批次数据,用当前模型重新计算ELBO,算出重要性比率,再结合截断、KL惩罚等约束,更新模型参数。
特别值得一提的是,V-GRPO把采样阶段和优化阶段解耦了——采样时可以使用高阶ODE求解器(DPM-Solver++,效率更高),优化时只需要重新跑几步前向传播来计算ELBO,完全不受采样器形式的限制。这也正是MDP方法所无法做到的灵活性。
在数值精度方面,研究团队采用了一个细心的混合精度策略:采样阶段用BF16混合精度(速度快),但ELBO计算、主权重和反向传播全部用FP32(精度高)。这样既保证了训练速度,又避免了因精度不足导致的数值不稳定。
**六、实验结果:快了几倍,做到了什么**
研究团队在两个主流模型上验证了V-GRPO的效果。
第一个是FLUX.1-dev,这是一个目前业界最顶尖的文图生成模型之一,无需分类器引导即可生成高质量图像。实验在HPDv2数据集的提示上进行,同时使用HPSv2.1、PickScore、ImageReward、UnifiedReward四个不同维度的评分函数联合优化。训练300次迭代后,V-GRPO在所有四个指标上均排名第一,超过了BranchGRPO、MixGRPO等复杂方法。更关键的是,V-GRPO用150次迭代就达到了MixGRPO用300次迭代才能达到的效果,训练速度快了2倍。在训练开销的另一个维度——每次迭代需要运行模型的次数上,V-GRPO用的是16步采样加4步ELBO计算,总计约20次前向传播,而MixGRPO需要25次采样步。从定性的图片对比来看,V-GRPO生成的图片在构图对齐、细节连贯性和整体风格上均优于其他方法,甚至在没有使用任何文字渲染专项奖励或数据集的情况下,自然地展现出了更强的文字渲染能力。
第二个实验对象是Stable Diffusion 3.5 Medium(SD 3.5M),这是一个依赖流匹配技术的中等规模生成模型,通常需要分类器引导才能获得高质量输出。研究团队沿用了DiffusionNFT提出的五阶段课程式训练方案,不同阶段分别针对人类偏好、图文对齐(GenEval)和文字识别(OCR)等不同目标轮流训练,共运行580次梯度更新。结果显示,V-GRPO以580步达到了DiffusionNFT用1700步才能达到的性能水平,训练效率提升约3倍,同时每次迭代所需的前向传播次数也大幅减少。值得注意的是,实验同时验证了一个有趣的副产品:在训练过程中完全关闭分类器引导后,模型依然能生成高质量图像——这说明在线强化学习训练实际上隐式地完成了"引导蒸馏",让模型在不依赖额外引导的情况下,内化了原本需要引导才能实现的生成能力。
在单任务实验中,V-GRPO也展现出竞争力。以OCR文字识别任务为例,仅需25次梯度更新(对比FlowGRPO的1000步和DiffusionNFT的150步),V-GRPO就达到了最高的0.98分。这种极高的样本效率,在实际应用中意味着显著的计算成本节省。
**七、消融实验:每个零件都拆下来试试**
为了验证各个技术的贡献,研究团队进行了细致的消融实验,逐一去掉每个技术模块来观察效果变化。
在FLUX.1-dev的实验中,完全去掉所有方差降低技术的基线,训练曲线会出现剧烈震荡,几乎无法稳定收敛。单独去掉"组内共享时间步"或"分层采样"中的任意一个,训练也会重新变得不稳定;去掉"自适应损失权重"则会导致最终性能略有下降,但不影响稳定性。这说明三种技术各有分工,缺一不可。
在SD 3.5M的实验中,情况略有不同:即便去掉某一个单独技术,训练仍然能够基本稳定,只是三者集合使用时效果最好。这表明SD 3.5M模型本身对ELBO训练有更强的内在鲁棒性,而FLUX.1-dev则需要更严格的方差控制。
关于ELBO估算中使用的时间步-噪声对数量NMC,研究团队发现存在一个"收益递减"的饱和效应。NMC从4降低到2,训练明显变差无法收敛;从4增加到8,提升却很有限。这与MDP方法中关于"优化时间步数量"的饱和现象高度吻合,说明这是一个跨方法范式的普遍规律。
关于预测参数化形式的选择,实验明确显示:使用ε预测(预测噪声)会导致严重的训练崩溃;使用v预测(预测速度场)稳定但收敛略慢;使用x预测(直接预测干净图像)效果最好。这一结论与自适应损失权重的设计逻辑一致——x预测形式与归一化权重的配合,能最有效地平衡不同时间步上的梯度贡献。
说到底,这项研究做的事情,有点像是把一辆本来就有的老旧车辆认真检修了一遍,换了更好的减震系统,改进了变速箱,最终发现它的速度和稳定性都超过了那些花大价钱打造的新型赛车。ELBO近似方法并不是一条死路,它只是需要正确的工程实现才能发挥潜力。
从普通用户的视角来看,这项研究意味着:未来当你使用AI图像生成工具时,它背后的训练过程可能变得更快、更高效,需要的计算资源更少——这最终可能转化为更低的使用成本和更快的迭代速度。与此同时,模型对你输入的文字描述的理解和还原能力,也可能因为更高效的强化学习训练而持续提升。
这项研究也留下了一些值得继续探索的问题。比如,V-GRPO方法对不同规模的模型是否同样有效?在视频生成、3D生成等扩散模型的新兴应用场景中,这套方案能否直接迁移?随着奖励函数本身的质量越来越高,ELBO方法的训练效率优势是否还会进一步放大?这些问题,或许会成为这个方向上下一批论文的研究焦点。
对这项研究感兴趣的读者,可以通过arXiv编号2604.23380找到完整论文,代码已在GitHub公开发布(tang-bd/v-grpo),可以直接运行复现实验结果。
Q&A
Q1:V-GRPO和MixGRPO、BranchGRPO相比,为什么训练速度更快?
A:V-GRPO采用基于ELBO近似的方式来估算模型概率,不需要把整个采样轨迹的每一步都参与优化。每次迭代只需用少量时间步-噪声对重新计算ELBO,而不是把几十步采样全部跑一遍。相比MixGRPO需要25次完整采样步,V-GRPO只需16步采样加4步ELBO计算,总开销更低,加上收敛速度更快,最终实现了约2倍的训练效率提升。
Q2:ELBO近似方法以前为什么会失败,V-GRPO是怎么修好的?
A:以前的ELBO近似失败的根本原因是方差太大。不同时间步的损失值差异悬殊,随机采样导致ELBO估算极不稳定,使得计算出的"重要性比率"失真,梯度更新方向混乱。V-GRPO通过三项技术解决了这个问题:让同一组生成图片共享相同的时间步采样、用分层采样保证均匀覆盖、以及用自适应权重归一化不同样本的损失幅度,三管齐下显著降低了估算方差。
Q3:V-GRPO训练之后的模型为什么可以不用分类器引导也能生成高质量图片?
A:这是一个意外发现的副产品。分类器引导是一种在推理时增强生成质量的技巧,通常会增加计算开销。在线强化学习训练过程中,模型不断根据奖励信号调整生成行为,这个过程似乎隐式地让模型内化了"引导"所提供的质量提升效果,使得模型在推理时无需显式引导也能维持高质量输出。这个现象在DiffusionNFT等研究中也有类似报告。
热门跟贴