南开大学与阿里联合攻关：让AI画图从"百步成图"变成"四步出图"|cdm|南开大学|四步出图|实验|数学|新论文|轨迹|阿里巴巴集团

这项由南开大学、阿里巴巴集团和吉林大学联合完成的研究，于2026年5月以预印本形式发布，论文编号为arXiv:2605.06376。有兴趣深入了解技术细节的读者，可以通过该编号在arXiv平台查阅完整论文，或访问项目主页及GitHub代码仓库获取更多资料。

以烹饪来打比方：现在最顶尖的AI画图模型，就像一位精益求精的大厨，每次下厨都要经历几十甚至上百道工序，反复翻炒、调味、摆盘，才能端出一道色香味俱全的菜肴。这种精工细作固然出色，但在实际使用中，每次"下单"都要等上半天，显然不够实用。于是，研究者们开始思考：能否培训出一批"速成厨师"，用仅仅四道工序就端出同样美味的佳肴？这就是所谓的"扩散模型蒸馏"——把一个慢模型的本领，压缩传授给一个快模型。

然而，现有的速成方案普遍存在一个令人头疼的问题：端出来的菜，总是过于平淡，细节模糊，像是用大锅快炒出来的大众食堂风格，缺少原来大厨作品里那种层次分明的口感和精细的摆盘。研究团队通过深入分析，找到了症结所在，并提出了一套名为"连续时间分布匹配"（CDM，Continuous-Time Distribution Matching）的全新方案，在不借助任何额外"提鲜剂"（GAN对抗网络或奖励模型）的情况下，让四步速成的图像质量实现了显著跃升。

一、为什么"速成厨师"总是做不出细节？

要理解这个问题，先得明白AI画图的基本逻辑。扩散模型的工作方式，就像把一幅清晰的画逐步加上噪点，直到变成一片雪花屏，然后再训练模型把这个过程倒过来——从雪花屏一步步还原出清晰的画。这个从噪点到清晰图像的"还原之路"，通常需要走上几十到一百步。

现在有一种主流的"蒸馏"思路叫做分布匹配蒸馏（DMD），核心做法是：让速成学生模型产生的图像，其整体分布要尽量贴近老师模型产生的图像分布。但问题在于，已有的DMD方法有一个根深蒂固的习惯——它们会严格规定学生在训练时只能在几个固定的时间节点上练习，比如第1步、第3步、第5步、第7步，完全对应推理时要走的那几步，中间的所有时刻全部跳过，就好比培训厨师时只让他练习第一刀切菜、第三次翻炒、第五次调味，中间大量的操作细节全部略去不练。

这种"离散锚点"训练方式带来两个明显弊端。其一，学生只在几个孤立的时刻接受监督，相当于只是零散地"打了几个卡"，没有办法形成流畅连贯的操作手感，导致生成的速度场不够平滑；其二，DMD本身采用的是一种叫做"反向KL散度"的优化目标，这种目标天生偏向于只模仿老师最拿手的那几种"招牌菜"，容易忽视更丰富的多样性，最终导致生成的图像过于平滑，缺乏细节，甚至出现明显的视觉瑕疵。为了弥补这些缺陷，已有方法往往需要额外引入对抗网络（GAN）或者外部奖励模型来"打补丁"，这不仅增加了系统的复杂度，也带来了更高的训练成本。

二、一个意外发现：打卡时间其实不用那么死板

研究团队做了一个很直觉上简单、但结论却出人意料的实验。他们把原本固定在四个离散时间节点的训练，改成在整个时间轴上随机采样——每次训练迭代，随机选一个时间点，随机选一段模拟长度，不再死守原来的固定节点。

实验结果显示，这个看似微不足道的改动，不仅没有损害模型性能，反而带来了一致性的提升：在HPSv3这项评估人类偏好的指标上，动态调度版本从10.08提升到了10.65，同时生成的图像细节更丰富，视觉瑕疵也更少。这个发现直接推翻了长期以来"训练时间节点必须与推理时间节点严格对齐"的默认假设，说明分布匹配的效果与具体使用哪几个固定节点无关，严格的离散对齐反而是一种多余的限制。

从数学层面来看，这个做法的合理性在于：当学生模型的时间节点和老师模型的扰动时间步都从同一个连续分布中独立采样时，两者在期望意义上会均匀地覆盖整个时间域，而不是只在几个固定位置产生梯度信号。这就好比培训厨师时，不是只让他练习第1分钟、第3分钟、第5分钟的操作，而是随机抽查任意时刻，这样练出来的厨师对整个烹饪流程的掌握会更全面、更扎实。

三、另一个关键发现：分布匹配损失究竟在做什么？

在充分理解动态调度的优势之后，研究团队还发现了另一个被长期误解的问题。此前有研究认为，DMD的训练目标可以拆分为两个独立部分：一个"CFG增强"（CA）损失负责让图像与文字描述对齐，而分布匹配（DM）损失只是一个辅助稳定训练、减少瑕疵的"调味料"，本身并不承担核心功能。

然而，研究团队用视觉和数量两方面的证据推翻了这个判断。他们训练了一批只用DM损失、不用CA损失的学生模型，然后把这些学生的输出与老师模型在开启和关闭CFG（分类器无关引导，一种让图像更贴合文字的技术）时的输出做比较。结果非常清晰：只用DM损失蒸馏出来的学生，产生的图像与老师在**不开启CFG**时的输出高度相似，无论是视觉风格还是各项量化指标都几乎一一对应。这个现象在SD3-Medium和Longcat-Image两个不同的基础模型上都得到了复现。

这意味着，DM损失并不是一个无关紧要的辅助项，它实际上是在驱动学生模型学习老师在"无引导状态"下的自然分布——一种未经CFG放大、更接近原始数据分布的输出。理解这一点非常关键，因为它说明了DM损失有其确定的、独立的功能定位，而不仅仅是一个稳定器。在整个CDM框架的设计中，CA损失和DM损失各司其职：CA负责把图像往正确的文字描述方向推，DM负责维持图像的真实感和分布一致性，两者缺一不可。

四、CDM框架的核心设计：连续时间里的"离线纠偏"

基于上述两个发现，研究团队设计了CDM框架的两个核心组件。

第一个组件是动态连续时间调度策略。在每次训练迭代时，模拟的推理步数N不再固定，而是从1到最大值（Nmax，实验中设为28）之间随机采样；时间节点也不再是固定的几个离散值，而是在整个连续区间(0, 1]上随机生成一组严格递减的序列。这样，学生模型在不同训练轮次中会接触到长短不一、位置各异的轨迹片段，相当于用各种不同的切菜方式和烹饪节奏反复练习，而不是机械重复同一套固定动作。

第二个组件是CDM损失，这也是整个框架最具创意的部分，用来解决"离轨漂移"问题。

这里需要解释一下什么是"离轨漂移"。当速成学生模型用很少的步数走完从噪声到清晰图像的路程时，每一步的跨度都很大。就像在山路上开车，如果每个弯道都要一脚油门跨过去，而不是缓缓地沿着弯道行驶，车就很容易冲出道路——这就是"离轨"。数学上可以证明，每一步Euler积分（一种常见的数值积分方法）引入的局部误差与步长的平方成正比，累积下来的全局误差则与最大步长成正比，而这个误差的大小还取决于速度场（模型预测的"行进方向"）在相邻时刻之间的变化有多剧烈。

为了压制这种离轨漂移，CDM损失设计了一种"主动探测"机制。做法如下：在某个时间节点ti处，取出轨迹上的当前状态xti，用学生模型预测此刻的速度方向，然后沿着这个方向走一小步，到达一个新的位置xt'i——这个位置并不在原来的模拟轨迹上，而是通过一阶Euler外推得到的"离轨点"。接下来，把这个离轨点输入学生模型，得到学生对"从这里出发应该到达哪里"的预测；再把这个预测加上随机噪声，让冻结的老师模型和在线更新的"仿冒老师"分别给出评分，并计算两者的差异作为监督信号，反向传播更新学生模型。

这个设计背后的物理直觉是：如果学生在轨迹上某个点预测的速度方向有偏差，那么沿着这个错误方向走一步后，到达的位置就会偏离理想轨迹。CDM损失通过在这个偏离位置施加额外监督，相当于告诉学生："你走偏了，请纠正。"更重要的是，从数学上可以推导出，这种在相邻两点上同时施加约束的做法，实际上是在约束速度场的"物质导数"（即速度随时间和空间的综合变化率），而这正是局部截断误差中唯一可以通过训练来控制的量。因此，CDM损失通过模仿老师模型的速度场变化率，把老师那种平滑流畅的"行车风格"迁移给了学生。

整个训练目标就是这三部分损失的加和：CA损失加上DM损失再加上CDM损失，三者权重相等。

五、实验结果：数字和画面都说话

研究团队在两个不同规格的基础模型上进行了大量实验，分别是Stability AI的SD3-Medium和美团的Longcat-Image，两者都在1024×1024的高分辨率下运行。评测指标覆盖了美学评分（AES）、提示词遵从度（DPGBench）、人类偏好评分（PickScore和HPSv3）、语义对齐（CLIPScore）等多个维度。

在SD3-Medium上，CDM在4步推理的条件下，拿到了所有对比方法中最高的美学评分（6.075）、DPGBench得分（85.26）、PickScore（21.95）和HPSv3（9.561），同时CLIPScore也处于竞争力水平。与最接近的无图像对比基准D-DMD相比，CDM在HPSv3上从9.176提升到了9.561，提升幅度显著。特别值得一提的是，CDM的4步学生模型在DPGBench和HPSv3两项指标上已经超越了需要走100步的原始老师模型——这意味着蒸馏过程并不只是复制老师，而是在某些维度上实现了超越。

在Longcat-Image上，同样的趋势得到复现：CDM在美学、DPGBench、PickScore、HPSv3四项指标上均排名第一，HPSv3更是从D-DMD的9.629大幅跃升至10.65。

与此同时，研究团队还额外测试了OCR文字渲染准确率（使用PaddleOCR在1K个包含文字的提示上评估）和FID（衡量生成分布与真实数据分布之间的距离，使用COCO 2014验证集的10K张图像评估）。CDM在FID上以30.30排名第一，在OCR上以34.82排名第二（略低于固定调度版本的37.33）。

在效率方面，CDM的训练时间约为D-DMD的1.8倍，显存占用从62.2GB略增至62.5GB，基本持平。但这些额外的训练开销完全限于训练阶段——推理时，CDM与D-DMD使用相同的网络结构和相同的步数，每张图的生成时间同样是246毫秒，没有任何额外负担。

六、消融实验：每个设计决策都有它的理由

为了验证每个设计组件的必要性，研究团队做了系统的消融分析。

首先是损失函数的组合实验。单独使用CA损失会导致结构崩溃，图像完全失控；单独使用DM损失或CDM损失虽然能恢复视觉质量，但文字对齐能力明显不足，CLIPScore大幅下滑；CA与任意一种分布匹配损失配合使用，效果就显著提升；而三者全部组合的完整目标，在所有指标上都达到最优，HPSv3峰值9.561。这证明三个损失组件在功能上互补，缺少任何一个都会有明显代价。

其次是核心机制的细节对比。把动态连续调度换回固定离散调度后，HPSv3从9.561下降到9.482，各项指标均有不同程度下滑，直接验证了连续调度的增益。把速度场驱动的外推替换为高斯噪声扰动（先预测出干净图像，再重新加噪），或者完全不做任何扰动直接在原轨迹点施加监督，性能均有所下降——说明模拟真实推理偏差的速度外推，比简单的噪声扰动更能捕捉到真正有意义的离轨状态。把CDM损失中用于监督的参考目标从"局部估计"（在离轨点处预测的干净图像）换成"全局估计"（完整推理路径末端的图像），同样会带来性能下滑，证明了局部化的监督信号比全局信号在误差纠正上更直接有效。

七、模型的灵活性：训练时定4步，用的时候可以不止4步

CDM还展示了一个颇具实用价值的特性：虽然学生模型以4步为目标进行蒸馏，但由于训练过程覆盖了连续的时间域，生成的速度场更加平滑，学生模型在推理时可以灵活地使用3步、4步、6步或8步，无需针对不同步数重新训练或调整参数。

研究团队用同一个CDM检查点分别生成了NFE为3、4、6、8的图像，使用完全相同的提示词和随机种子。结果显示，模型在整个范围内都能产生连贯的、与提示词对应的图像，步数越多则细节越精细。这种灵活性来源于两个设计：动态调度让学生在训练中接触过各种长度的轨迹，CDM损失则约束了速度场的物质导数，使得每步积分的误差更小，因此少几步或多几步都不会导致模型失控。

八、研究的边界与未来方向

研究团队也坦诚地指出了CDM目前存在的局限性。训练成本增加约1.8倍，这对于大规模工业应用来说是一个需要权衡的因素。CDM作为蒸馏框架，天花板由老师模型决定——如果老师模型本身对某些概念或构图的理解存在缺陷，学生也难以通过蒸馏弥补。此外，目前的实验仅限于文本生成图像的场景，研究团队表示后续希望将CDM扩展到文图混合编辑和视频扩散模型，后者在时序一致性方面会带来新的挑战。

说到底，CDM这项工作的核心贡献在于一个思维方式的转变：与其把训练严格锁死在与推理对应的几个固定时刻，不如让监督信号均匀地覆盖整条时间轴，同时主动去探测和纠正推理过程中真正会遇到的那种偏离。两个关键发现——调度可以解耦、DM损失是在学习无引导分布——为这套设计提供了清晰的理论支撑，而实验数据也反复证实，这两个方向的改进是真实有效的，而不是刷指标的技巧。对于所有需要在速度和质量之间做权衡的生成模型应用来说，CDM提供了一个不依赖复杂外部模块、可以相对低成本复现的参考方案。有兴趣深入了解的读者，可以通过arXiv:2605.06376查阅完整论文，项目代码也已在GitHub上公开。

Q&A

Q1：CDM蒸馏方法和普通的扩散模型蒸馏有什么本质区别？

A：普通的DMD蒸馏方法在训练时，只在与推理步数完全对应的几个固定时间节点施加监督，中间时刻全部跳过。CDM打破了这个限制，改为在整个连续时间轴上随机采样训练节点，同时新增了一个"离轨点"监督机制：沿着学生预测的速度方向走一步到一个偏离轨迹的位置，在那里额外施加约束，直接压制推理时因大步长积分产生的误差积累。

Q2：CDM为什么不需要GAN或奖励模型就能生成高质量图像？

A：以往方法在只用分布匹配训练时，因为离散锚点稀疏、模式单一，容易产生过度平滑和视觉瑕疵，所以需要引入GAN或奖励模型来"补救"。CDM通过连续时间调度让监督更密集均匀，通过CDM损失的离轨约束让速度场更平滑，从根本上减少了积累误差和瑕疵的产生，因此不需要额外的对抗训练或外部奖励信号就能达到较好的视觉效果。

Q3：CDM蒸馏出来的4步模型在实际使用中能否灵活调整推理步数？

A：可以。由于动态连续调度让学生在训练时接触过各种长度的轨迹，加上CDM损失约束了速度场的连续变化率，同一个CDM检查点在推理时可以使用3步、4步、6步或8步，无需重新训练或额外调参。步数越多，生成的图像细节越精细，但即使只走3步，图像依然连贯且与提示词对应。