"清华团队 DiffusionNFT：破解扩散模型 RL 困境，效率飙升 25倍

阿柒的讯

2025-10-08 19:17 ·河南

最近AI圈出了个大事，清华朱军教授团队、NVIDIADeepImagination研究组还有斯坦福StefanoErmon团队，一起搞出了个叫DiffusionNFT的新东西。

这玩意儿是扩散模型强化学习的新玩法，直接把之前行业里的老难题给破了。
之前大家都想把强化学习用到扩散模型上，毕竟强化学习在大语言模型里那么成功。

就说FlowGRPO吧，它是把扩散采样拆成一步一步的决策，然后在反向去噪的时候优化，本来想这招能行，但后来发现问题不少。

首先是似然估计的事儿，自回归模型算“靠谱度”能算得很准，扩散模型却得花大功夫近似。

这就像你算数学题，别人直接套公式出结果，你得绕好几个弯子还不一定对，强化学习跟着受影响，优化的时候总偏。

然后是前向和反向对不上，只优化反向去噪，不管前向加噪，模型练着练着就变样了，生成的东西稳定性差得很。

还有采样器也受限制，只能用一阶SDE的，ODE或者更高阶的好东西用不上，白瞎了那些能提效率、提质量的工具。

最后是CFG的问题，要优化俩模型，又慢又费劲儿。

我觉得这些问题堆在一起，就像给扩散模型绑了好几根绳子，想跑也跑不快。
DiffusionNFT：换个思路就“破局”
就在大家愁怎么解这些绳子的时候，三个团队的DiffusionNFT来了，思路直接反过来了。

之前都盯着反向去噪，它偏不，直接在扩散的前向加噪过程上做强化学习。

这步棋走得挺妙，一下子就绕开了之前的坑，这玩意儿的核心机制有三个，我一个个跟你说。

第一个是正负对比，用奖励把样本分成好的（正例）和差的（负例），明确模型该往哪儿好、该避开哪儿。

之前有个叫RFT的方法，只看正例，就像走路只看前面的路，不看脚下的坑，容易栽跟头。

DiffusionNFT加了负例，相当于多了个“避坑指南”，靠谱多了。

第二个是负力感知微调，它挺聪明的，不用额外加判别器，就从目标模型里同时定了正向和反向的策略，把正负对比变成一个训练目标。

本来想这不得搞俩模型才成，后来发现人家一个就搞定了，省了不少事儿。
第三个是强化指导，数学上把优化目标变成了旧策略的偏移量，跟CFG有点像，但不用双模型。

很显然，这又少了一层麻烦，训练起来更顺了，这么设计下来，DiffusionNFT的好处就显出来了。

首先它跟前向过程能对上，练完还是正经的扩散模型，不会变“四不像”，然后采样器随便用，不管是ODE还是SDE，想用啥用啥。

再者不用算似然，只看生成结果和奖励，步骤少了很多，最后不用依赖CFG，想加也能加，灵活得很。
实验数据说话：效率性能都能打
光说不练假把式，人家团队也做了实验，结果还真亮眼，在GenEval任务上，DiffusionNFT只用1k步，得分就从0.24涨到了0.98。

反观FlowGRPO，得用超过5k步才能到0.95，这差距可不是一点点，整体效率比FlowGRPO高3到25倍。

这效率提升，不管是小公司还是大团队，用起来都能省不少成本，就算不用CFG，DiffusionNFT也比原来的模型强。

比如生成风景图，它生成的图在美感、跟文本的对齐度上，都比老模型好不少，我看过一些对比图，确实能看出差别，细节更到位，风格也更统一。
还有多奖励联合优化的实验，在SD3.5-Medium上同时优化好几个指标，像GenEval、OCR、PickScore这些。

最后模型所有指标都超过了原来的SD3.5-Medium，跟只优化单个奖励的FlowGRPO打平，甚至比更大的SD3.5-L和FLUX.1-Dev还强。

搞不清的是，SD3.5-L参数量比SD3.5-Medium多不少，DiffusionNFT居然能让小模型超过大模型，这实力确实够硬。
往后看，DiffusionNFT的用处还挺多，游戏公司用它做场景生成，之前要72小时，现在12小时就能搞定，程序员怕是能少熬几个夜。

医疗影像领域也能用，它的前向一致性好，生成的CT、MRI影像跟真实结构的偏差能降到5%以下，符合医疗的规矩。

多模态生成、大模型对齐这些领域，以后说不定也能用得上，我觉得DiffusionNFT不光是解决了当下的问题，更像是给扩散模型强化学习指了条新路子。

它打破了之前似然估计和反向轨迹的限制，把监督学习和强化学习连了起来。

如此看来，以后生成式AI不管是做图像、，还是多模态内容，都可能用上它的思路。

毫无疑问，这对整个生成式AI行业来说，都是个好消息，能让技术落地更快，成本更低，普通人也能享受到更多AI带来的便利。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴