ICCV 2025最佳学生论文 | FlowEdit：告别反演，一种更直接的图像编辑范式，结构保持力SOTA！|flowedit|iccv|反演|学生论文|深度思考模型|计算机视觉

文章来源：我爱计算机视觉（ID：aicvml）

刚刚ICCV 2025 大会公布了最佳论文和最佳学生论文，最佳论文由卡内基梅隆大学研究团队摘得，最佳学生论文由以色列理工学院获得，从11000多篇投稿论文中被选中，这些论文有哪些值得关注的点，我们一起来看看。（本文关注的是最佳学生论文，最佳论文解读请参见今天的另一篇文章）

简单来说，我们想让AI根据一句话（比如“把猫变成狗”）来修改图片，同时又尽可能保留原图的结构和风格，这其实并不容易。传统的“先反演再编辑”方法，就像是把一张画拆解成一堆杂乱的颜料点（噪声），然后再用这些颜料点根据新的指令去画一幅新画。这个过程很容易“手抖”，导致最终画面要么不像话，要么丢失了原作的精髓。

而这篇论文提出的 FlowEdit ，则完全跳过了“拆解成颜料点”这一步。它更像一位高明的画家，直接在原画上进行修改，构建了一条从“原始图像”到“目标图像”的直接、平滑的路径。这样做的好处是显而易见的：编辑过程更稳定，对原图结构的破坏更小，效果达到了新的SOTA水平。

论文标题 ：FlowEdit: Inversion-Free Text-Based Editing Using Pre-Trained Flow Models

作者：Vladimir Kulikov, Matan Kleiner, Inbar Huberman-Spiegelglas, Tomer Michaeli

机构：以色列理工学院 (Technion – Israel Institute of Technology)

会议：ICCV 2025 Oral

论文终稿地址 : https://openaccess.thecvf.com/content/ICCV2025/papers/Kulikov_FlowEdit_Inversion-Free_Text-Based_Editing_Using_Pre-Trained_Flow_Models_ICCV_2025_paper.pdf

项目主页 ：https://matankleiner.github.io/flowedit/

代码仓库 ：https://github.com/fallenshock/FlowEdit

ps.下载该论文并所有ICCV 2025 论文，请在“我爱计算机视觉”公众号后台回复“顶会论文”(小写)。

为何需要“告别反演”？

在深入了解 FlowEdit 之前，我们先快速回顾一下当前主流的AI图像编辑范式。很多方法，比如大家熟知的 SDEdit、Prompt-to-Prompt 等，都依赖于一个叫做“反演”（Inversion）的过程。

这个过程有点像一个“先拆解再重建”的流程：

反演（拆解） ：首先，将原始图片（比如一张老虎的照片）通过一个前向的常微分方程（ODE）过程，一步步“拆解”成一个纯粹的噪声图。这个噪声图可以看作是生成这张图片的“种子”。
编辑与生成（重建） ：然后，用这个“种子”噪声图，结合新的文本指令（比如“把老虎换成猫”），通过一个反向的ODE过程，再一步步“重建”出一张新的图片。

上图生动地展示了“反演编辑”与FlowEdit的路径差异。左侧（a）就是传统的反演路径，需要先走到噪声空间（N(0,1)），再返回。而右侧（c）的FlowEdit则选择了一条更直接的路径。

这个“绕远路”去噪声空间溜达一圈的范式，虽然可行，但存在明显缺陷：

信息损失 ：在“拆解”和“重建”的过程中，很容易丢失原始图像的精细结构和布局信息。
错误累积 ：反演过程本身可能不完全精确，导致最终生成的图像与原图结构偏差较大，出现不自然的“P图”痕迹。

深入技术：从ODE反演到FlowEdit

为了真正理解FlowEdit的巧妙之处，我们需要深入其数学原理。

技术背景：基于ODE反演的编辑范式

当前许多方法都基于流模型（Flow Models），特别是矫正流（Rectified Flow）。这类模型学习一个含时的速度场（velocity field）V(Z_t, t, C)，它可以将一个分布的样本（如高斯噪声）通过求解一个常微分方程（Ordinary Differential Equation, ODE）“输送”到另一个分布（如真实图像）。这里的 Z_t 是 t 时刻的图像状态，C 是文本条件。

基于此，“反演编辑” 的具体技术步骤如下（对应上图a）：

前向过程（反演） ：给定源图像 X_src 和源提示 C_src 。我们从 Z_0 = X_src 开始，求解前向ODE： dZ_t = V(Z_t, t, C_src) dt ，直到 t=1 时刻，得到一个理论上与 X_src 对应的噪声向量 Z_1 。这就是所谓的“反演到噪声”。
后向过程（生成） ：拿到这个噪声 Z_1 后，我们换上新的目标提示 C_tar 。从 Z_1 开始，反向求解ODE： dZ_t = V(Z_t, t, C_tar) dt ，从 t=1 回到 t=0 ，最终得到编辑后的图像 X_tar 。

这个过程虽然理论上可行，但其致命弱点在于，它将源图像和目标图像的关联完全寄托于那个唯一的、在反演时计算出的噪声向量 Z_1 上。任何计算上的不精确都会导致结构信息的丢失。

FlowEdit的核心思想：从“单一路径”到“多路径平均”

FlowEdit的作者首先提出了一个深刻的洞见：上述两步走的“反演编辑”过程，其实等价于一个从 X_src 到 X_tar 的直接ODE路径（对应上图b）。这条直接路径的速度场，恰好是目标速度场与源速度场的差值 V_tar - V_src。

然而，这条由反演决定的“唯一”直接路径，依然不是最优的。因为它经过了噪声空间的“瓶颈”，会导致不合理的匹配（如下图所示，源分布中的蓝点可能被错误地匹配到目标分布中较远的红点，而不是更近的蓝点），从而增加了“传输成本”，损害了图像结构。

FlowEdit的解决方案（对应上图 Figure 2中的 c）正是为了打破这种僵硬的“唯一路径”。它的核心思想是：不再依赖于某一次具体的反演，而是通过对大量可能的“编辑方向”进行平均，来动态地、启发式地寻找一条更好的路径。

具体步骤如下：在求解编辑路径的每一步 t，对于当前的中间结果 Z_FE_t：

它并不进行完整的反演，而是构造一个“假设的”带噪源图像 Ž_src_t 。这是通过给原始图像 X_src 混合一个 随机高斯噪声 N_t 得到的。
基于这个带噪源图像 Ž_src_t 和当前编辑状态 Z_FE_t ，可以推算出一个“假设的”带噪目标图像 Ž_tar_t 。
然后，模型分别计算出指向这两个“假设”图像的速度场 V_src(Ž_src_t) 和 V_tar(Ž_tar_t) 。
计算出当前这个随机噪声下的“编辑速度”： V_delta = V_tar - V_src 。
最关键的一步 ：重复上述1-4步多次（每次都用 新的随机噪声 N_t ），然后将得到的多个 V_delta 取平均值 。
使用这个平均后的、更鲁棒的“编辑速度”，来更新当前图像 Z_FE_t ，完成ODE的一步积分。

CV君认为，这个“随机采样与平均”的策略是FlowEdit的精髓所在。它不再把宝押在一次反演上，而是通过“集思广益”，综合了大量可能路径的“意见”，从而找到了一条整体上“传输成本”更低、更能保持原始结构的演化路径。这是一种非常聪明的启发式搜索，它让编辑过程变得更加灵活和稳定。

实验效果：眼见为实

理论说再多，不如直接看效果。FlowEdit 在各种复杂的编辑任务上，都展现出了SOTA级别的性能。

无论是物体替换（自行车变Vespa、兔子变小狗）、概念更换（皇冠变礼帽、椰子变棒球），还是更细微的属性修改，FlowEdit都能精准地执行指令，同时几乎完美地保留了背景、光照、姿态等原始图像信息。

比如这个将蛋糕上的“水果”换成“草莓”的例子，FlowEdit不仅准确地添加了草莓，还保持了蛋糕原有的奶油质感和盘子背景。

定量对比：用数据说话

除了肉眼可见的出色效果，FlowEdit在量化指标上也全面超越了基于反演的方法。

在一个“千猫变千狗”的合成数据集实验中，研究者对比了FlowEdit和反演编辑的“传输成本”（即编辑前后图像的差异）。结果显示，FlowEdit的传输成本（MSE 1376 vs 2239, LPIPS 0.15 vs 0.25）远低于反演方法，同时在生成图像的真实性指标（FID/KID）上也表现更优。这有力地证明了其在结构保持上的巨大优势。

上图展示了不同方法在“文本-图像一致性”（CLIP，越高越好）和“结构保持性”（LPIPS，越低越好）上的权衡。FlowEdit（Ours）在两个维度上都取得了最佳的平衡点。

在风格编辑方面，FlowEdit同样游刃有余，可以在动漫、绘画等风格间自由切换，同时保留主体内容。

总结

总的来说，FlowEdit的提出，为基于流模型的文本图像编辑领域带来了一股清新的空气。它不仅在效果和性能上达到了新的SOTA，更重要的是，它提供了一种更优雅、更符合直觉的“直接编辑”新范式。CV君认为，这种“告别反演”的思路，很可能会启发未来更多的研究，并有望被集成到主流的文生图模型（如Stable Diffusion、FLUX）中，让AI“P图”变得更加得心应手。

大家对这种“直接编辑”的思路怎么看？欢迎在评论区留下你的看法！