编辑|泽南、杨文

昨晚,计算机视觉顶会 CVPR 2026 获奖名单正式出炉。

其中,一篇由本科生主导完成的论文不仅成功中稿 Oral,还一举拿下最佳学生论文提名奖,引发了大家的关注。

打开网易新闻 查看精彩图片

这篇名为《ChordEdit: One-Step Low-Energy Transport for Image Editing》的获奖论文,提出了一种与模型无关、无需训练、也无需反演、能够实现高保真的一步式图像编辑的方法。

奖项公布后,有网友发帖称,「感觉蛮励志的」,论文的第一作者和通讯作者均为广东工业大学的在读本科生,实验甚至是在一块古早的 NVIDIA Titan 显卡上跑出来的。

打开网易新闻 查看精彩图片

关于算力的使用,在论文中作者确实是这样论述的:

打开网易新闻 查看精彩图片

可知是一块基于 Turing 架构的 NVIDIA Titan 24GB GPU,它是英伟达迄今正式发布的最后一款 Titan 显卡,发布时间早在 2018 年。也就是说比玩家们用的 RTX 4090 架构还早了两代,性能也更原始。

还记得 CVPR 2026 颁奖活动中展示的算力消耗统计数据吗?

打开网易新闻 查看精彩图片

ChordEdit 不仅用的算力少,还拿了最佳学生论文提名,可以说是一股清流。

作者背景

根据论文作者列表及公开资料,这篇论文共有 6 位作者,来自广东工业大学、惠州学院、深圳大学、北京大学。

Liangsi Lu(卢梁司)

第一作者 Liangsi Lu(卢梁司),目前是广东工业大学信息与计算科学专业本科生,研究方向主要集中在表征学习与视觉生成。

打开网易新闻 查看精彩图片

个人主页:https://luliangsi.github.io/

他认为视觉作为一种高带宽的交互接口,能够通过连续的表示来刻画现实世界,并捕捉到文本中未完全指明或缺失的规律,从而帮助 AI 更好地理解物理规律、构建鲁棒的世界模型。

在具体研究上,卢梁司开发了 RLSTG,一个连续神经动力系统,用于建模真实世界背后的非欧几里得几何结构;并提出了 ChordEdit 视觉编辑框架。

其个人主页显示,他目前共有三篇论文收录于顶级会议。

打开网易新闻 查看精彩图片

目前,他正在积极申请 2027 年秋季入学的博士项目。

Xuhang Chen(陈绪行)

现任惠州学院计算机科学与工程学院讲师,同时兼任旭日集团研究科学家。

打开网易新闻 查看精彩图片

https://cxh.netlify.app/

他于 2025 年在澳门大学与中国科学院深圳先进技术研究院联合培养获得计算机科学博士学位,导师为 Pun Chi-Man 教授和王书强教授;此前曾在宾夕法尼亚大学获得电气工程硕士和计算机与信息技术硕士学位,并分别获得中山大学电子信息科学与技术学士、香港中文大学电子工程学士学位。

他的研究方向主要包括计算成像、生物医学数据处理、通用计算机视觉与多模态建模。

Minzhe Guo

为广东工业大学学生,未找到公开个人主页,公开资料较少。

打开网易新闻 查看精彩图片

Shichu Li

来自深圳大学,曾参与发表论文《DWT-Net: A Medical Image Segmentation Model Incorporating Frequency Domain Information》。

未找到公开个人主页,公开资料较少。

打开网易新闻 查看精彩图片

Jingchao Wang

目前是北京大学计算机科学学院博士生,导师为 Yunhuai Liu。

打开网易新闻 查看精彩图片

个人主页:https://openreview.net/profile?id=~Jingchao_Wang4

他本科就读于广东工业大学计算机科学与技术学院(2021 年 - 2025 年),随后于 2025 年进入北京大学计算机学院攻读博士学位。

研究方向包括多标签图像分类、节点分类、视觉提示调优等。

根据 ORCID 显示,截至目前,Jingchao Wang 发表了 11 篇论文,其中本科阶段发表至少 8 篇。

打开网易新闻 查看精彩图片

https://orcid.org/0000-0002-0099-539X

Yang Shi

论文通讯作者 Yang Shi,目前是广东工业大学计算机学院本科生,预计于 2027 年毕业。根据其个人主页,他的研究方向主要集中在计算机视觉和数据挖掘。

从公开成果来看,他已经参与多篇顶级会议论文,研究覆盖图像编辑、视觉语言模型评测、图神经网络、时空图建模等方向。

打开网易新闻 查看精彩图片

其中,ChordEdit 被 CVPR 2026 接收,并获得 Best Student Paper Honorable Mention;他还以第一作者身份有论文被 SIGKDD 2026、ACL 2026 Main Conference 接收,并以唯一通讯作者身份有论文被 ICML 2026、CVPR 2026、WWW 2026 接收。

打开网易新闻 查看精彩图片

https://cnshiyang.github.io/

论文讲了什么?

他们提出的 ChordEdit,其核心贡献在于解决了一步步生成模型在做「一步编辑」时容易出现的图像崩塌问题,实现了又快又稳的实时编辑。

打开网易新闻 查看精彩图片

  • 论文:《ChordEdit: One-Step Low-Energy Transport for Image Editing》
  • 链接:https://arxiv.org/abs/2602.19083
  • 项目页面:https://chordedit.github.io/

一步式文本生成图像(T2I)模型的出现,带来了前所未有的生成速度。然而,将这类模型用于文本引导的图像编辑上时我们仍然面临严重阻碍:如果强行把现有的免训练编辑方法压缩到单步推理中,往往会失败。这种失败主要表现为物体严重变形,以及非编辑区域一致性的明显丢失。其根源在于,直接在模型的结构化场上做朴素的向量运算,会产生高能量、剧烈抖动的轨迹。

为解决这一问题,这项工作提出了 ChordEdit。这是一种与模型无关、无需训练、也无需反演的方法,能够实现高保真的一步式图像编辑。他们将图像编辑重新表述为一个传输问题:在由源文本提示词和目标文本提示词所定义的源分布与目标分布之间进行传输。

基于动态最优传输理论,研究者推导出一种有原则的低能量控制策略。该策略能够得到更平滑、方差更低的编辑场,并且天然更加稳定,使得这一编辑场可以通过一次较大的积分步长完成遍历。

凭借这一有理论支撑、并经过实验验证的方法,ChordEdit 能够实现快速、轻量且精确的图像编辑,最终让这类具有挑战性的一步式模型真正具备实时编辑能力。

打开网易新闻 查看精彩图片

ChordEdit 在图像一致性保持和语义对齐之间取得了优异的平衡,推理时仅需 2 次网络调用(1 次传输 + 1 次可选的后处理),在一块 NVIDIA Titan 24GB 显卡上仅需 0.38 秒。显存占用仅 6988 M,远低于同类方法(如 SwiftEdit 的 15060 M)。

打开网易新闻 查看精彩图片

在 PIE-bench 数据集上,ChordEdit 的背景一致性(PSNR)、语义一致性(CLIP 分数)等多项核心指标均优于同类方法。与此同时,作为一个与模型无关的插件,它兼容 SD-Turbo、InstaFlow 和 SwiftBrush-v2 等主流单步生成模型。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

这篇论文在技术、理论上均有亮点,展示了理论工具在解决实际工程挑战中的独特价值。

期待作者未来的更多研究。