ICCV 2023 | 图像重缩放新方法：无需对模型重新训练即可提高性能|iccv|image|神经网络

深度神经网络在图像重缩放（Image Rescaling , IR）任务中取得了巨大成功，该任务旨在学习最佳的下采样表示，即低分辨率（LR）图像，来重建原始的高分辨率（HR）图像。与固定降尺度方案（例如 bicubic）的超分辨率方法相比，由于学习了下采样表示，IR 通常可以实现更好的重建性能，这突出了一个良好的下采样表示的重要性。现有的 IR 方法主要通过联合优化下采样和上采样模型来学习生成低分辨率图片。

研究者发现，可以通过一种不同的且更为直接的方式来改进下采样表示——直接优化下采样图像（LR 图像）本身，而不是下采样/上采样模型。所提出的方法专注于模型的推理阶段，无需对现有模型进行重新训练，因此可以很好地推广到不同的模型中，并不断改进结果。本工作发表在 ICCV 2023，为提升现有 IR 方法的性能提供了有效途径。

论文地址： https://arxiv.org/abs/2211.10643

Image Rescaling (IR)旨在将高分辨率(HR)图像缩小为视觉上舒适的低分辨率(LR)图像，然后将其放大以恢复原始HR图像。在实际应用中，缩小后的图像在节省存储空间或带宽以及拟合不同分辨率的屏幕等方面发挥着重要作用。IR的典型应用场景是在边缘设备(例如移动设备)上获取HR图像/视频(之前存储在服务器中)。为了节省存储空间和减少传输延迟，通常将原始HR图像/视频缩小到LR，然后存储在服务器上。在某些情况下，这些LR图像可以直接被边缘设备使用，例如当设备屏幕分辨率较低或仅作为预览时，同时也可以在需要时将其升级到原始分辨率。为了提高IR任务的性能，现有方法通过最小化重建损失来共同学习下采样和上采样模型。然而，在一个完整的pipline中，除了训练好的神经网络模型外，被缩小的低分辨率图片本身也非常重要。

图1. 对抗样本和协同样本对于重建的HR图像的影响

当不同的数据被输入到一个参数冻结的模型中时，通常会得到明显不同的结果。如图1所示，与原始LR图像相比，基于对抗样本生成办法所生成的LR图像会使重建的HR图像的PSNR下降0.93dB，并且在视觉上线条变得模糊。相比之下，基于梯度下降生成协同的LR图像时，不仅性能提高了1.29dB，而且线条更加清晰流畅。因此，本文提出了一种协作的降尺度方案Hierarchical Collaborative Downscaling (HCD)，如图2所示，其重点是获得图像的更好的下采样表示(紫色框)，而不是学习模型(蓝色框)，该方案优化了HR和LR图像域的表示，获得了更优的下采样图片。

本文提出的HCD与现有方法的不同之处被概括为以下3点：

优化目标不同。现有方法对模型参数进行优化，而HCD优化了数据的表示，这与优化模型的方法是正交的。
专注于不同的阶段。现有方法专注于训练阶段，HCD专注于推理阶段，是第一个用于IR任务推理阶段优化方法。此外，HCD可以很好地推广到不同的模型中，并不断改进结果。
优化方案不同。现有方法在每次迭代中进行向前-后向传播。相比之下，HCD采用分层方案，采用分层方式进行前-后向传播，即先更新HR图像，再更新LR图像。

图2. 现有图像重缩放方法与HCD方法的比较一、技术路线

HCD方法的整体流程图如图3所示。由于LR图像是从相应的HR图像中所获得的，因此可以基于HR域中的协同样本来改进LR表示。通过这种方式，依次在HR和LR域生成协同样本，可以获得更优的下采样表示。从本质上讲，可以将共同学习HR和LR域图像看作是一个双层优化问题。

本文将优化图像本身设计为向图像添加扰动的过程。为了提高重建性能，该方法固定模型参数，直接学习最优扰动和，依次改进下采样表示。设为重构损失，，分别表示上采样模型和下采样模型。扰动将被约束在一个 p-norm epsilon 球内，以避免显著改变 LR 图像的视觉效果，即。形式上，该双层优化问题中的 LR 域扰动可通过最小化 L 得到：

图3. HCD方法的整体流程图

如图3所示，本文提出的HCD方法共包括三个步骤(整个过程中保持模型参数固定)：首先，迭代生成HR协同样本（黑色虚线框），该过程如黑线所示。其次，将它们输入到下采样模型中，以获得更好的初始LR图像，并迭代生成LR协同样本(红色虚线框)，该过程如红线所示。最后，将最终生成的LR图像输入到上采样模型中以重建高分辨率图像。

理论上，仅优化下采样所得的 LR 图像便可获得最佳重建图像。但是，实践中必须考虑有限次数的梯度下降迭代来更新 LR 图像，并通过以 ϵ-ball 约束扰动，优化结果将严重依赖于 LR 图像在流形上的初始位置。因此，基于更好的初始化图像，可以获得更好的优化后的 LR: 。为了获得更好的初始化，可以先优化 HR 图像，然后使用下采样模型产生更好的 LR: 。

二、定性 & 定量比较

本文基于IRN、HCFlow和GRAIN这三个最新的Image Rescaling方法评估了HCD的有效性，并在DIV2K验证集和Set5、Set14、BSD100、Urban100和Manga109五个标准数据集上对提出的方法进行了定量和定性分析。

2.1 定量比较

表1. 不同倍数的图像重缩放在基准数据集上的定量评估结果(PSNR / SSIM)

该实验部分对本文提出的方法与其他先进的IR方法进行了定量比较。在所有数据集上，本文提出的HCD在PSNR和SSIM上的性能明显优于最先进的方法。与原模型相比，HCD在15次迭代中显著提高了HR图像的重建效果。对于2倍尺度的重建图像，HCD比IRN方法提高了0.19-0.68 dB。对于4倍尺度的重建图像，HCD比HCFlow方法提高了0.16-0.7 dB，比IRN方法提高了0.27-0.44 dB。即使在64倍尺度放大任务上，HCD基于最新方法GRAIN仍然可以提高0.66-1.48 dB，证明了该方法的鲁棒性。

2.2 定性比较

图4. 不同方法在4倍缩小图像的放大任务上的视觉效果对比

作者通过展示重建图片的细节定性地评估了HCD的性能。如图4所示，基于HCFlow的HCD结果呈现出更真实的细节和高质量的视觉效果。在最后一组对比中，HCD缓解了IRN和HCFlow方法所带来的颜色差异。与IRN相比，它产生的线条更整齐，没有错误的水平线。这表明论文提出的HCD在视觉上明显优于baseline方法HCFlow和IRN。

三、分析与讨论

3.1 层次化协同学习的影响：

表2. 不同迭代方案的定量评估结果(PSNR / SSIM)

迭代次数降为零表示跳过了HR或LR图像的协作样本生成步骤。表2显示，当利用HR和LR协同样本时，PSNR可以进一步提高0.22-0.3 dB，这些结果证明了所提出的层次化学习方案的有效性，表明协同HR样本可以与协同LR样本相结合，以提高图像重缩放任务的性能。

3.2 HCD方法图像下采样和上采样延迟的影响：

本文方法所增加的延迟仅存在于获取低分辨率图像的过程中，该过程可以在服务器上离线处理。获取到优化的LR图像后，在边缘设备上进行图像放大时，时间成本与现有的IR方法完全相同。因此，该方法可在不增加重建高分辨率图像的延迟的情况下提高原模型的性能。

3.3 LR图像上生成扰动的可视化结果：

图5. 生成的LR协同样本(上行)和相应扰动(下行)的可视化结果

如图5，扰动主要分布在图像的轮廓和角点上。有趣的是，这些区域通常包含图像放大过程中难以捕获的高频信息，本文所提出的HCD方法的性能改进主要源于这些协同扰动。

四、结论

本文提出了一种层次化的协同降尺度(HCD)的图像重缩放方法。首先，该方法为降尺度模型的输入HR图像生成协同样本，以便将其下采样后生成更好的LR初始化图像。然后，为该LR图像生成协同样本，以进一步提高其重建性能。大量的实验表明，无论是定量还是定性比较，该方法在不同的图像缩放模型上都显著低提高了性能。

作者：徐冰娜国雍来源：公众号【PaperWeekly 】

Illustration by IconScout Store from IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。