衡宇 发自 凹非寺
量子位 | 公众号 QbitAI

统治AI图像生成近10年的黄金标准,第一次被拉下场当了教练。

我说的是FID(Frechet Inception Distance)。

这个指标从2017年沿用至今,一直无法无法投入日常训练使用。

现在有人打破了这个窘境——

来自USC、CMU、CUHK和OpenAI的全华阵容研究团队,提出了一种叫FD-loss的方法,把“算统计的样本池”和“算梯度的batch”彻底解耦。

依靠数万张图像组成的大容量缓存队列或指数移动平均机制,稳定完成分布估算,仅针对当下小批量数据开展梯度回传。

仅凭这一个idea,长期受限的FID终于能够作为训练损失函数,参与模型的直接优化。

实验带来了多项出人意料的结果:

  • 一个已有的单步生成器,后训练后直接刷出FID 0.72(ImageNet 256×256),而且推理成本零增加。
  • 一个训练了50步的多步扩散模型,被他们直接repurposing成1步生成器,无需教师蒸馏、无需对抗训练,效果还能打。
  • 其中最违背固有认知的发现在于,FID数值最优的模型,视觉观感未必出众。依托DINOv2、MAE、SigLIP等前沿视觉表征训练的模型,FID表现不如基于Inception架构优化的版本,但画面物体结构完整性与细节还原度都会明显更好。

打开网易新闻 查看精彩图片

业内长期扎堆优化FID分数,可这项沿用近十年的评价标准早已达到性能瓶颈,甚至会引导模型走入错误的优化方向。

对6种表征空间的归一化弗雷歇特距离(Fréchet Distance,FD)比值取平均,得到更鲁棒的综合指标FDrk。

按照这套新标准测算,真实验证集基准数值为1.0,现阶段顶尖生成模型的数值依旧高达1.89。

这足以说明ImageNet图像生成领域,距离技术成熟还有很远的距离。

解耦统计量与梯度计算

FID是所有生成模型性能测评的核心评判标准。

这个歌值越小,意味着生成图越真实、分布越接近真实。

它的计算方式是把真实图和生成图用Inception-v3提特征,各算一个高斯分布,再求两个分布之间的距离。

不过过去,FID只能当评测指标。

因为测算一次FID需要50000张图片的统计数据,而GPU每步训练能塞下的batch撑死也就1024张。

如果强行把5万样本全部参与反向传播,显存多半当场爆炸。

新研究的破局思路是“彻底解耦”。

简单来说,研究团队用数万张图组成的大窗口(队列或 EMA)稳定估算真实与生成分布的均值、协方差,保证FD计算准确;梯度只回传当前小批量数据,不增加训练算力负担。

研究者设计了两种工程实现。

第一种叫队列法(Queue)。

这种方法维护一个超大特征队列(比如5万条),每次生成新batch就enqueue,同时把最老的batch踢出去。

算FD时,用整个队列的均值和协方差;反向传播时,只给当前这1024条特征开梯度流,历史特征不参与梯度回传,保证统计稳健性的同时不增加训练开销。

第二种叫EMA法。

这种方法干脆不存储任何特征数据,仅通过指数移动平均实时更新生成样本特征的一阶矩与二阶矩,每一步使用当前批次的统计量平滑更新全局均值与协方差估计,梯度同样只作用于当前批次。

这种方式无需占用大量显存,统计结果更平滑稳定,还能轻松适配多表征空间联合优化,在实验中表现更优,也成为论文默认的实现方案。

打开网易新闻 查看精彩图片

为了验证这套解耦机制是否真的有效,研究者在最小的pMF-B/16(118M)上做了两组消融实验。

(注:论文在实验中使用了明确的模型规模分级,其中B代表Base小模型,参数规模约89M到131M。)

第一组对比队列长度。

不用队列(N=0)时,FID反而从3.31劣化到3.84。

队列加到5万时,FID骤降至0.89;但狂堆到50万后,因历史特征严重stale,FDr6直接崩回17.67。

第二组对比EMA衰减率。

β=0.999时,FID刷到0.81,比队列版更优,且显著好于过短的0.9(0.98)和过长的0.9999(0.98)。

因此后续所有实验——无论pixel/latent空间、多步转单步、还是2.5B参数的文本模型——均默认采用EMA方案。

三个“反常识”的实验发现

三个“反常识”的实验发现

新提出的FD-loss本质上是一个后训练的分布对齐目标。

研究者从已经训练好的生成器出发,只用FD-loss做轻量微调。

真实图像只在离线阶段出现一次——预先把训练集的均值和协方差算好存盘,之后模型再也不见真图,只对着自己生成的样本做自我修正。

这意味着它不需要修改原有架构,不需要从头训练,也不需要教师蒸馏或对抗学习,像插件一样直接嵌入现有流程。

而且无论像素空间还是隐空间、单步还是多步模型,都能即插即用。

有了这个轻量框架,研究团队才得以系统性地测试当FID真的变成损失函数,生成模型会发生什么。

打开网易新闻 查看精彩图片

FD-loss带来了三个重要的实验发现。

发现一,FD-loss让单步生成模型首次实现画质与速度的新高度。

研究者拿了一个已经训练好的单步生成器 pMF-H,直接上FD-loss微调100轮。

结果在ImageNet 256×256上,FID从2.29干到了0.77,同时依然保持 1-NFE(单步生成)。

这一分数大幅超越过往多步扩散模型的最好水平,打破了 “高质量必须多步、单步只能低画质” 的固有枷锁。

换句话说,推理成本一分钱没多花,画质直接跃升。

同样的操作放到latent-space的iMF-XL上,FID也从1.82压到0.76。

更关键的是,这种提升不是刷分。在论文图4的定性对比里,后训练的鹦鹉羽毛更分明,雪豹的斑点也更清晰。

打开网易新闻 查看精彩图片

发现二,FD-loss可以直接将成熟的多步扩散模型改造为高性能单步生成器。

研究者把原本训练来跑50步的多步模型JiT-L,强行拉到单步模式,也就是直接输入纯噪声,模型只跑一次,输出就当最终图像。

结果就是FID直接崩到291.59,画面糊成一锅粥。

然后,他们什么都不改,就用FD-loss继续微调这个的单步模式。

整个过程无需教师蒸馏,无需对抗训练,无需逐样本监督信号。

50轮后,FID从291骤降到 0.77,生成质量与原多步模型相当甚至更优,而且推理速度提升数十倍。

打开网易新闻 查看精彩图片

发现三,FID最低的,未必是最好的。

这也是该试验最具行业反思价值的一点。

当研究者把FD-loss放到不同的表征空间里优化时,事情变得诡异起来(惊恐.jpg)。

实验清晰表明,FID最低的模型,在人眼主观评价中并非最优。

基于Inception特征优化的模型能获得最低FID,却在物体结构、细节纹理、整体感知上弱于使用DINOv2、MAE、SigLIP等现代视觉表征训练的模型。

后者FID数值更高,但人眼看更锐利、物体结构更完整,视觉质量显著更优。

这说明长期被奉为金标准的FID可能会误导研究方向……

团队提出新标准

团队提出新标准

那么,如果FID已经靠不住了,我们拿什么来相信生成模型的进步?

研究团队提出跨6种表征空间的归一化平均指标FDrk。

该指标通过对Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP共6种不同维度的表征空间计算归一化FD比值并取平均,得到综合评估结果FDr6。

按照这一标准,真实验证集的基准值为1.0,而当前最强生成模型的FDr6仍高达1.89,直观揭示 ImageNet生成任务远未被解决。

此外,在人类盲选偏好实验中,即便最优的pMF-H模型,得票率也只有37.4%,真实图片依旧以62.6%的胜率占优。

打开网易新闻 查看精彩图片

值得一提的是,FD‑loss具备极低的使用门槛与极强的泛化能力,可作为轻量化后训练插件直接嵌入现有训练流程,无需从零搭建模型,也不依赖复杂的训练策略与工程调优。

该方法同时兼容像素空间与隐空间生成模型,适配单步生成器与多步扩散模型,支持类别条件生成与文生图等多种任务模式。

在整个优化过程中,FD‑loss无需修改原有主干网络结构,不引入复杂的架构改动和从头训练的巨大开销,依托队列或EMA统计更新即可稳定收敛,具备优秀的复现性与落地可行性。

凭借简洁通用的设计,它大幅降低了高质量极速生成模型的工程实现门槛,让各类生成架构都能快速获得显著的质量提升。

低成本、高回报,这正是FD-loss之于工业界的诱惑力所在。

团队介绍

团队介绍

公开信息显示,五位作者全部是华人背景。

一作Jiawei Yang,USC计算机系博士生,师从Yue Wang教授,目前的研究聚焦于以视觉为中心的多模态模型的统一生成与理解。

他硕士毕业于UCLA,曾获NVIDIA Graduate Fellowship。

打开网易新闻 查看精彩图片

Zhengyang Geng本科毕业于四川大学计算金融专业,现为CMU计算机科学博士生,导师为Zico Kolter。

他长期专注单步生成、动态系统与模型高效化,是MeanFlow、pMF等系列工作核心作者。

他的个人主页写道“与Kaiming He有紧密合作”,两人曾连续合作多篇单步生成领域核心论文。

打开网易新闻 查看精彩图片

Xuan Ju是香港中文大学博士生,师从徐强教授,主攻图像与视频生成、高效多模态模型。

她在ICCV、SIGGRAP 等顶会发表多篇成果。

打开网易新闻 查看精彩图片

Yonglong Tian博士毕业于MIT计算机科学专业,现为OpenAI研究员。

他是监督对比学习SupContrast等表征学习标志性工作的作者,曾任职于Google DeepMind。

打开网易新闻 查看精彩图片

通讯作者Yue Wang,USC助理教授,同时兼任英伟达研究科学家。

他本科毕业于浙江大学,硕士毕业于UCSD,博士毕业于MIT,研究横跨3D视觉、生成模型与机器人。

打开网易新闻 查看精彩图片

论文arXiv:
https://arxiv.org/abs/2604.28190