打开网易新闻 查看精彩图片

当前主流的图像生成模型——扩散模型(如 DiT)、自回归模型(如 VAR)、掩码生成模型(如 MaskGIT)、流模型(如 SiT)——都遵循一个共同范式:将复杂的图像生成任务拆解为多个可控的子步骤,逐步迭代完成。然而,这种多步策略引入了一个不可忽视的问题:每一步都需配置大量超参数(如噪声水平、采样温度、引导尺度等),而现有方法普遍依赖手工设计的静态调度规则来管理这些参数。

这种做法存在两个重要缺陷:一是需要大量专家知识和反复调参,二是"一刀切"的静态策略无法适配每个样本的独特特性

本文提出AdaGen——一个通用的、可学习的、样本自适应的生成策略框架。通过强化学习训练一个轻量级策略网络,AdaGen 能根据当前生成状态自动为每个样本定制最优的生成策略,在四大主流生成范式上均实现了显著的性能提升与效率优化。

  • 论文标题:
  • AdaGen: Learning Adaptive Policy for Image Synthesis
  • 论文链接:
  • https://arxiv.org/abs/2603.06993
  • 论文代码:
  • https://github.com/LeapLabTHU/AdaGen

核心动机:从"静态一刀切"到"动态因材施教"

打开网易新闻 查看精彩图片

图:AdaGen的核心思想。现有方法使用预定义的静态策略,所有样本共享相同调度规则;AdaGen则通过RL训练的策略网络,为每个样本自适应地产生定制化的生成策略。

现有的多步生成模型在推理时,所有样本共享同一套预定义的调度规则。以 MaskGIT 为例,即使生成步数为 T = 16,也需要配置 64 个策略参数(每步 4 个参数),实际操作中极度依赖人工经验。更关键的是,一张简单的风景图和一张复杂的人物肖像,真的应该用完全相同的生成策略吗?

AdaGen 的核心思想非常直观:引入一个通过强化学习训练的策略网络(Policy Network),让它观察当前的生成状态,自动且自适应地为每个样本决定最优的生成参数。

统一 MDP 建模:一个框架统一四大生成范式

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

状态转移 (Transition):由预训练的生成模型决定。扩散模型和流模型的转移由 ODE 求解器确定,是确定性的;MaskGIT 和自回归模型的转移则是随机的

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

对抗奖励建模:不让策略"投机取巧"

训练策略网络的另一个核心挑战在于:如何设计有效的奖励信号?论文探索了三种方案,揭示了一个重要发现:

打开网易新闻 查看精彩图片

图:三种奖励设计的对比。(a) 用FID作奖励:FID虽低至2.56,但图像质量差,保真度不达标;(b) 用预训练奖励模型:保真度好了但样本多样性严重不足;(c) AdaGen的对抗奖励建模:保真度与多样性兼顾。

(a) 用 FID 作奖励:虽然 FID 数值可以被优化到很低(2.56),但生成图像的视觉质量反而很差。策略网络学会了"刷"指标的捷径,牺牲了视觉保真度。

(b) 用预训练奖励模型:保真度上去了,但生成样本趋于同质化,多样性严重不足。策略过拟合于奖励模型的偏好。

(c) 对抗奖励建模(AdaGen 的方案):引入一个判别器作为奖励模型,与策略网络进行对抗训练。策略网络试图最大化奖励,而判别器则不断提高区分真假图像的标准,有效防止策略过拟合。最终实现了保真度与多样性的良好平衡

打开网易新闻 查看精彩图片

图:AdaGen的训练流程。策略网络控制生成过程产生图像,对抗奖励模型同时评估生成结果并不断自我进化。预训练生成模型在整个过程中保持冻结。

训练算法简洁优雅,核心循环仅包含两步:(1) 策略网络优化:生成图像,用 PPO 算法更新策略网络使奖励最大化;(2) 奖励模型优化:同时采样真实和生成图像,训练判别器更好地区分两者。两者交替进行,形成类似 GAN 的博弈过程。

动作平滑:驯服高维动作空间的探索

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图:优化过程。当生成步数从T=8增加到T=32时(黄色曲线),优化变得不稳定且性能下降。引入动作平滑后(红色曲线),训练恢复稳定且性能超越T=8基线。

论文发现,不稳定性的根源在于 PPO 探索时对每步独立添加高斯噪声,导致动作序列出现剧烈且不必要的高频波动。而对于逐步推进的迭代生成过程,最优策略往往是平滑变化的。为此,论文提出动作平滑技术——对策略输出施加指数移动平均(EMA)滤波:

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

图:动作平滑前后的对比。左侧未平滑时,动作序列剧烈抖动(FID=3.5);右侧引入平滑后,序列合理平稳(FID=2.3)。

上图直观对比了平滑前后的效果:从杂乱无章的锯齿波到平滑有序的下降曲线,FID 也从 3.5 降至 2.3。

实验结果:四大范式全面提升

跨范式有效性验证

AdaGen 在 ImageNet 256×256 上跨越四大生成范式、六个模型进行了验证。在所有范式和推理步数下,AdaGen 均一致超越对应的基线方法,且性能增益在推理步数较少时更为显著:

打开网易新闻 查看精彩图片

表:AdaGen 在 ImageNet 256×256 上的 FID-50K 结果(↓越低越好),覆盖四大生成范式。注:MaskGIT、DiT、SiT 在不同推理步数 T 下评测;VAR 采用固定的 10 步生成,因此仅在 T=10 列报告结果。

效率优势

打开网易新闻 查看精彩图片

图:AdaGen在四种模型上的质量-效率权衡。无论是理论计算量(TFLOPs)还是实际GPU/CPU推理时延,AdaGen均能推进质量-效率前沿,实现1.6×到3.6×的推理加速。

上图系统展示了 AdaGen 在四种生成模型上的质量-效率权衡。无论是理论计算量还是实际推理延迟,AdaGen 均一致推进了质量-效率前沿,实现1.6× 到 3.6×的推理加速。

极低的额外开销

AdaGen 的策略网络仅为生成器增加0.07% 到 0.40%的额外推理计算量,因此其性能提升并不以增大推理开销为代价:

打开网易新闻 查看精彩图片

表:AdaGen 策略网络的推理开销占生成器总计算量的比例。

结语

AdaGen 将生成策略的设计从"手工艺术"转变为"数据驱动的优化问题"。通过统一的 MDP 建模、对抗奖励设计和动作平滑技术,AdaGen 以一种轻量、通用的方式,在四大主流生成范式上实现了 17% 到 54% 的性能提升,或 1.6× 到 3.6× 的推理加速。这一工作表明,多步生成模型的潜力远未被充分挖掘——一个好的"调度策略",和模型架构本身同样重要。