打开网易新闻 查看精彩图片

这项由Adobe ART AI实验室与Adobe研究院联合完成的研究,于2026年6月15日以预印本形式发布,论文编号为arXiv:2606.13898。感兴趣的读者可通过该编号查阅完整原文。

每当你打开Photoshop,点下那个神奇的"移除"按钮,让AI帮你把照片里不想要的人或物抹掉,你有没有想过:为什么有时候等待的时间那么久?背后的AI到底在做什么,为什么它那么"慢"?这篇来自Adobe的研究,正是为了回答这个问题,并给出一个聪明得出人意料的解决方案。

一、当Photoshop遇上"排队太长"的烦恼

先说一个真实的数字:Photoshop v27.0发布后的短短28天内,有110万用户使用了"Generative Fill"(生成式填充)功能,产生了3620万次交互,消耗了8280万个生成额度。这个数字说明什么?说明Adobe的AI服务器每天要处理海量的图像编辑请求,就像一家超级忙碌的快餐厅,每分每秒都有无数顾客在等餐。

问题在于,近几年AI图像生成技术发生了一次重大升级——从一种叫做"卷积神经网络"(U-Net)的老架构,换成了更强大的"扩散变换器"(Diffusion Transformer,简称DiT)。新架构生成的图像质量更好,但代价是计算量大幅增加。即便服务器的硬件从A100升级到了更贵的H100显卡,成本依然居高不下。Adobe的工程师们测量后发现,在整个AI图像编辑流程中,DiT模块一个人就占据了平均73%的运行时间——哪怕已经把原本需要50个步骤的生成过程,通过"知识蒸馏"技术压缩到了8个步骤。

用一个比喻来理解:整个AI图像编辑系统就像一条流水线,有负责"理解图像"的工人(VAE编码器)、负责"主要创作"的工人(DiT)、负责"解码输出"的工人(VAE解码器),以及负责"最终精修"的工人(Refiner)。测量结果显示,不管图像是512×512还是2048×2048的超大分辨率,"主要创作"那个工人始终要干全部工作量的68%到74%。他一个人太忙了,整条流水线的速度就被他拖慢了。

研究团队提出的解决方案叫做HiLo-Token——一个"输入自适应的高低频率令牌压缩框架"。这个名字听起来很复杂,但核心思想用一句话就能说清楚:不是每块地方都值得AI花大力气去看,只需要把注意力放在真正重要的地方。

二、AI的眼睛也需要"选择性注意"

在深入了解这个方案之前,有必要理解一个基础概念:AI处理图像时,会把图像切成很多小块,每个小块叫做一个"令牌"(Token)。就像你把一幅大拼图分成了许多小拼图块,AI对每一块都要进行分析和计算。图像越大,小块越多,计算量就越大。

研究团队首先做了一件很有价值的事:他们分析了真实用户在Photoshop里的编辑行为。通过研究大量真实的用户操作数据,他们发现了一些很有趣的规律。

在"需要编辑的区域有多大"这个问题上,超过50%的用户每次编辑的区域不超过整张图片的10%。换句话说,大多数时候,用户只是想抹掉照片里的一个小人物、一根电线杆,或者一个不想要的水印。而90%的用户,编辑区域不超过整张图的50%。

在"编辑区域是什么形状"这个问题上,55%是分散的小孔洞状(比如抹去多个小污点),34%是细长的条状,而方形和不规则形状加在一起只占11%。

这些数据指向一个重要结论:绝大多数情况下,AI根本不需要对整张图片的每个角落都进行精细计算。用户只是想改变图片的一小块,AI却要对着整张图片劳心费力,这就是浪费。就像你只是想修改一篇文章的第三段,系统却非要把整篇文章重新排版一遍——这显然不合理。

这个洞察奠定了整个HiLo-Token方法的基础:聪明地选择哪些地方需要精细处理,哪些地方粗看一眼就够了。

三、"精修区"与"扫一眼区":两种令牌的分工之道

HiLo-Token的名字里,"Hi"代表高频(High Frequency),"Lo"代表低频(Low Frequency)。理解这两个词,需要先理解图像里的"频率"是什么意思。

回到那个流水线比喻——编辑区域就是流水线上那个需要重点改造的零件,而图像的其他部分是背景环境。流水线工人需要两种不同的信息:一是需要改造的零件本身及其附近的细节(高频信息,比如纹理、边缘、花纹),二是整个工厂的大体布局(低频信息,比如整体颜色、大致结构)。

高频信息就像图像里细腻的纹理——一块石砖墙的缝隙、一件衬衫的格子花纹、一幅油画的笔触。这类信息在图像里表现为颜色或亮度的快速变化。低频信息则是图像的大致轮廓和整体色调,比如天空是蓝色的、地面是灰色的——这些信息即使图像被大幅缩小,也不会失真太多。

HiLo-Token把这两类信息用完全不同的策略来处理,就像一位有经验的画家:对于需要修改的区域,他会拿着放大镜仔细观察周围的细节;对于远处的背景,他只需要眯着眼睛看个大概就够了。

具体来说,在高频令牌这条路上,研究团队会对原始图像进行适度的压缩处理(采用8倍压缩比的VAE编码器加上2倍的补丁嵌入层),保留足够的空间分辨率,确保那些细腻的纹理不会被"糊掉"。这条路会产生大量的令牌,所以需要进行精心的筛选,只保留最有价值的那些。

在低频令牌这条路上,图像会被激进地缩小16倍——一张2048×2048的图像会被缩成128×128——然后经过VAE编码器和一个专门的"低频补丁嵌入层"来提取信息。因为缩得太小,生成的令牌数量极少,所以这部分令牌可以全部保留。这些令牌只能告诉AI图像的大概模样,但这就足够了——它们的任务是让AI不要"迷失方向",知道整体的结构是什么样的。

最后,两部分令牌被拼接在一起,组成"HiLo-Token"表示,送入DiT进行处理。整个过程里最神妙的部分,是高频令牌的筛选机制。

四、用"边缘探测器"代替昂贵的"注意力分析"

如何判断图像的哪些区域包含丰富的高频信息,值得让AI多花心思呢?

直觉上,你可能会说:让AI先看一眼图像,根据它自己觉得哪里重要来选择。这种方法叫做"基于注意力的令牌选择",确实有人尝试过。但研究团队发现这种方法存在一个致命缺陷。

考虑这样一个场景:图片里有一面对称的教堂壁画,正中间有一块区域被用户标记为要删除的对象(比如一个交通标志遮挡了壁画)。删除这个标志之后,AI需要根据壁画的另一半来"脑补"出被遮挡的那部分内容,因为壁画是对称的。

问题在于,被遮挡的那部分内容此时并不存在。AI在扩散过程的早期步骤里,还没有生成那部分内容,自然也就没有有意义的"注意力信号"来告诉系统"对面的那面壁画很重要"。结果就是,基于注意力的方法会忽略掉那面对称的壁画,AI最终脑补出来的内容会和整体风格完全不搭。

研究团队转向了一种更简单、更可靠的方案:Sobel算子边缘检测。这是计算机视觉领域一个已经有几十年历史的经典技术,说白了就是找出图像里颜色变化剧烈的地方。颜色变化剧烈的地方,往往就是纹理丰富、细节复杂的区域,也就是高频信息密集的区域。

Sobel算子的工作原理不复杂:用两个小型卷积核分别扫描图像的水平方向和垂直方向,计算每个像素在这两个方向上的颜色变化幅度,然后把两个方向的变化合成一个"空间频率图"。这个频率图里,数值越高的地方,代表那里的纹理越复杂、细节越丰富。

但仅仅有频率图还不够。如果直接根据阈值(比如0.1)来选择令牌,得到的是散落各处的零星令牌,就像棋盘上随机分布的棋子,对AI来说这种分散的信息很难有效利用。

研究团队加了一步"区域化"处理:把频率图进行16倍的空间池化,让相邻的小块自然聚合成更大的区域。这样一来,选择出来的高频令牌就不再是零散的点,而是连续的块状区域,AI能够更好地理解这些区域的上下文关系。

与此同时,用户指定的编辑区域会经过"膨胀"处理——把标记区域往外扩张一圈,确保编辑区域边缘附近的所有令牌都被纳入。这是因为编辑的内容需要和周围环境无缝融合,如果把编辑区域周边的上下文令牌都丢掉,生成的内容就会出现突兀的边界感。

整个令牌选择过程的计算代价极小,只用到了两次卷积操作和一次线性层操作,整体仅需约10毫秒,与DiT本身动辄数秒的计算时间相比,这点额外开销几乎可以忽略不计。

五、从"通才"到"专家":模型的训练之路

HiLo-Token不是一个独立的工具,它被整合进了Adobe的图像编辑模型体系里。

Adobe有一个叫做MultiEdit(ME)的"通才"模型,基于Firefly Image 3预训练而来,有着20亿参数规模的DiT主干网络。这个通才模型几乎无所不能——对象插入、移除、替换、重新打光、文字编辑、相机角度调整、主体提取,都在它的能力范围之内。

但在实际产品部署中,"通才"并不总是最优解。以"移除"和"生成填充"这两个功能为例,它们的目标在某种意义上是相反的:一个要删掉内容,另一个要添加内容。如果硬把它们塞进同一个模型里一起训练,模型会产生干扰——比如在"移除"任务里,模型可能会不由自主地倾向于往空白处插入东西,留下奇怪的"幽灵内容"。

因此,通才模型ME会被进一步"专科化"——通过在精心筛选的专项数据集上进行监督微调(SFT),培养出针对不同任务的专家模型。比如用于Photoshop移除功能的"Erase Specialist",就是在约40.7万个图像-蒙版对上微调而来,这些数据来自对象移除(包括合成渲染数据和真实世界数据)、修图、对象拼接与合成、手动遮罩,以及混合编辑等多个类别,跨越多种图像分辨率。

微调过程中,研究团队发现了一些很有意思的规律。如果训练数据里对象移除的样本太少,模型就需要更长的训练时间才能抑制"往空白处插东西"的冲动;反之,如果训练时间太长,模型又会开始在编辑区域和周围环境的边界处产生接缝感,像是"打补丁"的痕迹。这需要在训练过程中仔细监控,找到那个恰到好处的平衡点。

HiLo-Token就是在这个监督微调阶段被注入模型的——让模型从一开始就学会"只看关键地方",而不是在训练好之后才被强行剪枝。

在微调完成之后,研究团队还会对模型进行"步骤蒸馏"。原始扩散模型需要50个去噪步骤才能生成一张高质量的图像,在A100 GPU上处理一张1K分辨率的图像就需要约7秒,这对于生产环境来说太慢了。通过一种叫做分布匹配蒸馏(Distribution Matching Distillation,DMD)的技术,可以训练出一个"学生模型",让它用8个步骤就能生成和50步骤"老师模型"质量相当的结果。具体做法是最小化学生模型和教师模型生成结果之间的统计差异(KL散度),同时引入对抗性训练(GAN)来进一步提升生成质量。

整个训练过程在4个节点、共32块A100 GPU上进行,采用BF16混合精度计算和全分片数据并行(FSDP)技术来高效利用硬件资源。

六、真实的测试结果:钱到底省了多少

研究团队在一批包含92个代表性真实用户编辑案例的评测集上验证了HiLo-Token的效果。这些案例被按照编辑区域大小(蒙版比例)分成三组:小蒙版组(平均蒙版比例6.38%)、中蒙版组(15.92%)和大蒙版组(35.36%)。

加速效果非常直观。在DiT模块这个最大的计算瓶颈上,小蒙版的情况下加速比达到了3.13倍,中等蒙版是2.59倍,大蒙版是1.67倍。逻辑很清晰:编辑区域越小,可以丢弃的无关令牌就越多,加速效果也就越明显。落实到端到端的整体推理时间,三组对应的整体加速比分别是1.33倍、1.66倍和1.77倍。

在质量评估上,研究团队没有依赖FID(图像生成质量的常见指标)或CLIP分数(衡量图文匹配程度的指标),因为他们认为这些指标并不能准确反映图像编辑的质量。他们转而依赖专业的质量工程(QE)团队进行人工盲评,让评测人员在不知道哪个版本使用了HiLo-Token的情况下,比较两种方法的输出结果。

结果显示,对于移除功能,48%的案例两个版本质量相当,27%的案例使用HiLo-Token的版本更好,25%的案例原版更好。对于生成填充功能,70%打平,24%使用HiLo-Token的更好,仅6%原版更好。对于生成扩展功能,81%打平,10%使用HiLo-Token的更好,9%原版更好。也就是说,在绝大多数情况下,用户根本感知不到任何质量差异,甚至在某些情况下,经过令牌压缩的版本质量还更好一些。

在基础设施成本上,效果更加可观。根据图1b所展示的数据,引入HiLo-Token之后,运行Adobe移除功能所需的亚马逊AWS p5.48xlarge节点(每个节点配备8块H100显卡,每小时费用55.04美元)数量减少了33%。这意味着,仅仅通过这一项技术改进,Adobe每年可以节省的服务器成本是相当可观的数字。

研究团队还验证了HiLo-Token与其他优化技术的兼容性。与FP8量化(一种减少数值精度以加快计算的技术)结合使用,可以在HiLo-Token基础上再减少40%的DiT延迟。若把8步推理进一步蒸馏到5步,可以额外降低37.5%的延迟,质量下降仅影响不到5%的图像,在可接受范围内。此外,HiLo-Token也与VAE和Refiner模块的优化完全兼容,从而实现端到端的整体提速。

七、与同类方法的差异

把HiLo-Token放在更大的背景下来看,它属于"令牌级效率优化"这一大类方法,这类方法的核心思路是减少参与注意力计算的令牌数量,从而降低计算量。

现有的类似工作包括令牌合并(ToMe,把相似的令牌合并成一个)、令牌剪枝(直接删除不重要的令牌)、以及空间分辨率下采样(把整幅图像缩小后再处理)等。这些方法各有其局限性:要么对图像编辑这类特定任务的支持不够好,要么在压缩比较激进时会出现明显的质量下降,要么根本没有考虑到用户自定义蒙版这一核心交互模式。

与HiLo-Token最相关的两个前作是LazyDiffusion和DiffCR。LazyDiffusion是整个HiLo-Token框架的基础,它提出了只在蒙版区域内进行生成的核心思路,但它依赖一个基于Transformer的上下文编码器来提取编辑区域之外的信息,这个编码器本身就不便宜——而且因为上下文令牌和蒙版令牌是沿特征维度拼接的,大量有用的上下文信息在处理过程中被丢弃了。

HiLo-Token的改进体现在三个层面:用轻量级的Sobel边缘检测替代了昂贵的Transformer上下文编码器;把上下文令牌的拼接方式从特征维度改为令牌维度,避免了上下文信息的浪费;并且引入了"输入自适应"机制,根据每张图像的具体内容动态决定选择多少以及选择哪些令牌,而非对所有图像一视同仁地应用固定的压缩比。

说到底,这项研究解决的是一个非常实际的工程问题:怎么让强大的AI图像编辑功能跑得更快、花更少的钱,同时不让用户感知到任何质量下降。答案不是什么深奥的理论突破,而是一个基于常识的洞察——大多数用户只改图片的一小块,没有必要对整张图片每个角落都精雕细琢。把这个洞察转化为技术方案,需要解决一系列工程上的具体问题:如何智能地选择哪些地方需要精细处理,如何低成本地提取整体结构信息,如何让这套机制适应不同复杂度的图像内容,以及如何让整个方案无缝融入现有的训练和部署流程。

研究团队给出的答案——用经典的Sobel边缘检测来识别高频区域,用激进下采样来捕获低频全局结构,用区域化处理让令牌选择更连贯——每一步都简洁而有效。由此可见,好的工程解决方案不一定需要最新的技术,关键在于找准问题的本质,然后选择最合适的工具。

这对普通Photoshop用户意味着什么?当你在最新版本的Photoshop里使用移除或生成填充功能时,AI响应速度提升的背后,正是这套"看图省钱"方案在默默运行。它的存在,让Adobe能够用更少的服务器资源服务更多的用户,也为未来进一步提升体验创造了空间。

至于HiLo-Token能否推广到更广泛的图像生成任务(比如没有用户蒙版的纯文生图),或者能否在移动端这样内存受限的环境下发挥作用,这些都是值得进一步探索的问题。有兴趣深入了解技术细节的读者,可通过论文编号arXiv:2606.13898查阅完整原文。

Q&A

Q1:HiLo-Token是什么技术?

A:HiLo-Token是Adobe开发的一种AI图像编辑加速框架,核心思路是把图像分成"值得精细处理的高频区域"和"粗看一眼就够的低频区域",让AI重点处理关键位置,跳过不重要的地方,从而在不影响画质的前提下大幅减少计算量,在小蒙版编辑场景下最高可实现3.13倍加速。

Q2:HiLo-Token用了什么方法来判断图像哪里重要?

A:研究团队没有采用昂贵的注意力分析方法,而是使用了经典的Sobel算子边缘检测——找出图像里颜色变化剧烈(即纹理丰富)的区域作为高频令牌,同时用16倍激进下采样的图像来提取低频的全局结构信息。两部分信息拼接后送入AI模型处理,计算额外开销仅约10毫秒。

Q3:Photoshop用了HiLo-Token之后质量会下降吗?

A:根据Adobe专业质量工程团队的盲评结果,移除功能有48%的案例质量相当,生成填充功能有70%打平,生成扩展功能有81%打平,而且在部分案例中使用HiLo-Token的版本质量还更好。整体来说,用户在日常使用中基本感知不到任何质量变化。