AdaGen: 让图像生成模型学会自适应策略|图像生成|序列|算法|自适应

当前主流的图像生成模型——扩散模型（如 DiT）、自回归模型（如 VAR）、掩码生成模型（如 MaskGIT）、流模型（如 SiT）——都遵循一个共同范式：将复杂的图像生成任务拆解为多个可控的子步骤，逐步迭代完成。然而，这种多步策略引入了一个不可忽视的问题：每一步都需配置大量超参数（如噪声水平、采样温度、引导尺度等），而现有方法普遍依赖手工设计的静态调度规则来管理这些参数。

这种做法存在两个重要缺陷：一是需要大量专家知识和反复调参，二是"一刀切"的静态策略无法适配每个样本的独特特性。

本文提出AdaGen——一个通用的、可学习的、样本自适应的生成策略框架。通过强化学习训练一个轻量级策略网络，AdaGen 能根据当前生成状态自动为每个样本定制最优的生成策略，在四大主流生成范式上均实现了显著的性能提升与效率优化。

论文标题：
AdaGen: Learning Adaptive Policy for Image Synthesis
论文链接：
https://arxiv.org/abs/2603.06993
论文代码：
https://github.com/LeapLabTHU/AdaGen

核心动机：从"静态一刀切"到"动态因材施教"

图：AdaGen的核心思想。现有方法使用预定义的静态策略，所有样本共享相同调度规则；AdaGen则通过RL训练的策略网络，为每个样本自适应地产生定制化的生成策略。

现有的多步生成模型在推理时，所有样本共享同一套预定义的调度规则。以 MaskGIT 为例，即使生成步数为 T = 16，也需要配置 64 个策略参数（每步 4 个参数），实际操作中极度依赖人工经验。更关键的是，一张简单的风景图和一张复杂的人物肖像，真的应该用完全相同的生成策略吗？

AdaGen 的核心思想非常直观：引入一个通过强化学习训练的策略网络（Policy Network），让它观察当前的生成状态，自动且自适应地为每个样本决定最优的生成参数。

统一 MDP 建模：一个框架统一四大生成范式

状态转移 (Transition)：由预训练的生成模型决定。扩散模型和流模型的转移由 ODE 求解器确定，是确定性的；MaskGIT 和自回归模型的转移则是随机的。

对抗奖励建模：不让策略"投机取巧"

训练策略网络的另一个核心挑战在于：如何设计有效的奖励信号？论文探索了三种方案，揭示了一个重要发现：

图：三种奖励设计的对比。(a) 用FID作奖励：FID虽低至2.56，但图像质量差，保真度不达标；(b) 用预训练奖励模型：保真度好了但样本多样性严重不足；(c) AdaGen的对抗奖励建模：保真度与多样性兼顾。

(a) 用 FID 作奖励：虽然 FID 数值可以被优化到很低（2.56），但生成图像的视觉质量反而很差。策略网络学会了"刷"指标的捷径，牺牲了视觉保真度。

(b) 用预训练奖励模型：保真度上去了，但生成样本趋于同质化，多样性严重不足。策略过拟合于奖励模型的偏好。

(c) 对抗奖励建模（AdaGen 的方案）：引入一个判别器作为奖励模型，与策略网络进行对抗训练。策略网络试图最大化奖励，而判别器则不断提高区分真假图像的标准，有效防止策略过拟合。最终实现了保真度与多样性的良好平衡。

图：AdaGen的训练流程。策略网络控制生成过程产生图像，对抗奖励模型同时评估生成结果并不断自我进化。预训练生成模型在整个过程中保持冻结。

训练算法简洁优雅，核心循环仅包含两步：(1) 策略网络优化：生成图像，用 PPO 算法更新策略网络使奖励最大化；(2) 奖励模型优化：同时采样真实和生成图像，训练判别器更好地区分两者。两者交替进行，形成类似 GAN 的博弈过程。

动作平滑：驯服高维动作空间的探索

图：优化过程。当生成步数从T=8增加到T=32时（黄色曲线），优化变得不稳定且性能下降。引入动作平滑后（红色曲线），训练恢复稳定且性能超越T=8基线。

论文发现，不稳定性的根源在于 PPO 探索时对每步独立添加高斯噪声，导致动作序列出现剧烈且不必要的高频波动。而对于逐步推进的迭代生成过程，最优策略往往是平滑变化的。为此，论文提出动作平滑技术——对策略输出施加指数移动平均（EMA）滤波：

图：动作平滑前后的对比。左侧未平滑时，动作序列剧烈抖动（FID=3.5）；右侧引入平滑后，序列合理平稳（FID=2.3）。

上图直观对比了平滑前后的效果：从杂乱无章的锯齿波到平滑有序的下降曲线，FID 也从 3.5 降至 2.3。

实验结果：四大范式全面提升

跨范式有效性验证

AdaGen 在 ImageNet 256×256 上跨越四大生成范式、六个模型进行了验证。在所有范式和推理步数下，AdaGen 均一致超越对应的基线方法，且性能增益在推理步数较少时更为显著：

表：AdaGen 在 ImageNet 256×256 上的 FID-50K 结果（↓越低越好），覆盖四大生成范式。注：MaskGIT、DiT、SiT 在不同推理步数 T 下评测；VAR 采用固定的 10 步生成，因此仅在 T=10 列报告结果。

效率优势

图：AdaGen在四种模型上的质量-效率权衡。无论是理论计算量（TFLOPs）还是实际GPU/CPU推理时延，AdaGen均能推进质量-效率前沿，实现1.6×到3.6×的推理加速。

上图系统展示了 AdaGen 在四种生成模型上的质量-效率权衡。无论是理论计算量还是实际推理延迟，AdaGen 均一致推进了质量-效率前沿，实现1.6× 到 3.6×的推理加速。

极低的额外开销

AdaGen 的策略网络仅为生成器增加0.07% 到 0.40%的额外推理计算量，因此其性能提升并不以增大推理开销为代价：

表：AdaGen 策略网络的推理开销占生成器总计算量的比例。

结语

AdaGen 将生成策略的设计从"手工艺术"转变为"数据驱动的优化问题"。通过统一的 MDP 建模、对抗奖励设计和动作平滑技术，AdaGen 以一种轻量、通用的方式，在四大主流生成范式上实现了 17% 到 54% 的性能提升，或 1.6× 到 3.6× 的推理加速。这一工作表明，多步生成模型的潜力远未被充分挖掘——一个好的"调度策略"，和模型架构本身同样重要。