最近AI圈出了个大事,清华朱军教授团队、NVIDIADeepImagination研究组还有斯坦福StefanoErmon团队,一起搞出了个叫DiffusionNFT的新东西。

这玩意儿是扩散模型强化学习的新玩法,直接把之前行业里的老难题给破了。
之前大家都想把强化学习用到扩散模型上,毕竟强化学习在大语言模型里那么成功。

就说FlowGRPO吧,它是把扩散采样拆成一步一步的决策,然后在反向去噪的时候优化,本来想这招能行,但后来发现问题不少。

首先是似然估计的事儿,自回归模型算“靠谱度”能算得很准,扩散模型却得花大功夫近似。

这就像你算数学题,别人直接套公式出结果,你得绕好几个弯子还不一定对,强化学习跟着受影响,优化的时候总偏。

然后是前向和反向对不上,只优化反向去噪,不管前向加噪,模型练着练着就变样了,生成的东西稳定性差得很。

还有采样器也受限制,只能用一阶SDE的,ODE或者更高阶的好东西用不上,白瞎了那些能提效率、提质量的工具。

打开网易新闻 查看精彩图片

最后是CFG的问题,要优化俩模型,又慢又费劲儿。

我觉得这些问题堆在一起,就像给扩散模型绑了好几根绳子,想跑也跑不快。
DiffusionNFT:换个思路就“破局”
就在大家愁怎么解这些绳子的时候,三个团队的DiffusionNFT来了,思路直接反过来了。

之前都盯着反向去噪,它偏不,直接在扩散的前向加噪过程上做强化学习。

打开网易新闻 查看精彩图片

这步棋走得挺妙,一下子就绕开了之前的坑,这玩意儿的核心机制有三个,我一个个跟你说。

第一个是正负对比,用奖励把样本分成好的(正例)和差的(负例),明确模型该往哪儿好、该避开哪儿。

之前有个叫RFT的方法,只看正例,就像走路只看前面的路,不看脚下的坑,容易栽跟头。

DiffusionNFT加了负例,相当于多了个“避坑指南”,靠谱多了。

打开网易新闻 查看精彩图片

第二个是负力感知微调,它挺聪明的,不用额外加判别器,就从目标模型里同时定了正向和反向的策略,把正负对比变成一个训练目标。

本来想这不得搞俩模型才成,后来发现人家一个就搞定了,省了不少事儿。
第三个是强化指导,数学上把优化目标变成了旧策略的偏移量,跟CFG有点像,但不用双模型。

很显然,这又少了一层麻烦,训练起来更顺了,这么设计下来,DiffusionNFT的好处就显出来了。

打开网易新闻 查看精彩图片

首先它跟前向过程能对上,练完还是正经的扩散模型,不会变“四不像”,然后采样器随便用,不管是ODE还是SDE,想用啥用啥。

再者不用算似然,只看生成结果和奖励,步骤少了很多,最后不用依赖CFG,想加也能加,灵活得很。
实验数据说话:效率性能都能打
光说不练假把式,人家团队也做了实验,结果还真亮眼,在GenEval任务上,DiffusionNFT只用1k步,得分就从0.24涨到了0.98。

打开网易新闻 查看精彩图片

反观FlowGRPO,得用超过5k步才能到0.95,这差距可不是一点点,整体效率比FlowGRPO高3到25倍。

这效率提升,不管是小公司还是大团队,用起来都能省不少成本,就算不用CFG,DiffusionNFT也比原来的模型强。

比如生成风景图,它生成的图在美感、跟文本的对齐度上,都比老模型好不少,我看过一些对比图,确实能看出差别,细节更到位,风格也更统一。
还有多奖励联合优化的实验,在SD3.5-Medium上同时优化好几个指标,像GenEval、OCR、PickScore这些。

打开网易新闻 查看精彩图片

最后模型所有指标都超过了原来的SD3.5-Medium,跟只优化单个奖励的FlowGRPO打平,甚至比更大的SD3.5-L和FLUX.1-Dev还强。

搞不清的是,SD3.5-L参数量比SD3.5-Medium多不少,DiffusionNFT居然能让小模型超过大模型,这实力确实够硬。
往后看,DiffusionNFT的用处还挺多,游戏公司用它做场景生成,之前要72小时,现在12小时就能搞定,程序员怕是能少熬几个夜。

医疗影像领域也能用,它的前向一致性好,生成的CT、MRI影像跟真实结构的偏差能降到5%以下,符合医疗的规矩。

打开网易新闻 查看精彩图片

多模态生成、大模型对齐这些领域,以后说不定也能用得上,我觉得DiffusionNFT不光是解决了当下的问题,更像是给扩散模型强化学习指了条新路子。

它打破了之前似然估计和反向轨迹的限制,把监督学习和强化学习连了起来。

如此看来,以后生成式AI不管是做图像、,还是多模态内容,都可能用上它的思路。

毫无疑问,这对整个生成式AI行业来说,都是个好消息,能让技术落地更快,成本更低,普通人也能享受到更多AI带来的便利。

打开网易新闻 查看精彩图片