在黑暗中扩散，斯坦福大学团队提出用于低光照图像文本识别的扩散模型DiD|图像处理|扩散模型|斯坦福大学

在最近的人工智能社区中，扩散模型（Diffusion Model）可谓是来势汹汹，有如前两年视觉Transformer风靡整个CV圈的感觉。扩散模型以其明确清晰的采样过程，同时满足概率模型的灵活性和易处理性，完全具有发展成为各种视觉任务基础backbone的潜力。尤其是对于低层视觉任务而言，扩散模型可以最大限度的保留原有图像的语义结构，并通过不断迭代的优化方式可以得到更好的图像生成或处理效果。

本文来自斯坦福大学的研究团队，尝试引入扩散模型来解决低光照条件下的图像文本识别难题。在低光照环境中，对于例如文字识别等下游任务来说，其所需的图像高频信息丢失严重，问题本身的难度较大。本文基于扩散模型提出了一种低光照图像重建模型DiD（Diffusion in the Dark），DiD可以在极度黑暗、嘈杂的环境中工作，实现较高质量的图像重建质量，同时兼顾下游任务的语义高频细节，目前DiD模型已在低光照图像文本识别任务上达到SOTA性能，下图展示了DiD与其他SOTA方法的图像重建和文字识别效果对比。

论文链接： https://arxiv.org/abs/2303.04291 项目主页： https://ccnguyen.github.io/diffusion-in-the-dark

一、介绍

图像文本识别任务应该是目前人工智能自动化落地任务中的基础步骤，它可以促成很多日常生活任务的自动化运行，无论是高速公路收费站的自动车牌读取还是售货机在自动结账队列中识别杂货，机器都需要先从RGB图像中获取基础的视觉线索。而在现实使用场景中，图像的成像会受到噪声条件、光学模糊和其他因素的影响，这使得下游应用程序更具有挑战性。

值得注意的是，现有的一些图像重建方法往往会关注于如何增强图像以满足人类的视觉感观，这其实存在一个误区。虽然这种做法可以满足人类的视觉观看需要，但是未必有助于机器对细节信息的获取，例如图像的一些高频细节会因为这种偏好而被抹掉，但这些信息对于下游的文字识别任务却至关重要。扩散模型为这种类型的图像重建任务提供了一种新的处理途径，其更加容易训练并且相比传统方法能够获得更好的生成或重建效果。

二、本文方法

虽然扩散模型能够生成质量更好的高分辨率图像，但其往往需要更大的计算资源，对训练GPU的要求也很高。为了在生成分辨率和训练运行时间之间进行权衡，本文作者提出了一种训练策略，称为多尺度图像块方法（multi-scale patch-based approach），其实这种方法在很多高分辨率图像处理领域中也比较常用。即先将输入图像分解成为多个不重叠的图像块，然后在这些图像块上执行扩散模型操作，然后将这些图像块再拼接到一起，但是这种方式会导致不同图像块在拼接处出现曝光和白平衡不一致的情况。因而本文的DiD在训练阶段引入了多个尺度的图像块进行训练，并且使用第一个尺度恢复的曝光参数作为调节的起点，同时利用之前几个尺度的历史曝光信息来进一步细化高频细节。下图展示了DiD的整体框架，包括模型的训练和推理阶段。

2.1 Training Phase

给定模型低光照/光照良好的训练对，其中是用来控制图像块尺度的离散均匀分布的随机变量，作者从这个分布中抽取一个随机尺度并使用函数来获得与当前尺度所匹配的图像分辨率，随后使用三个可调节的条件变量作为输入：

1.低光条件：在低光照条件下预测得到的图像，该图像为重建提供了基础信息，对于每个尺度，测量值下采样到相应的操作分辨率。

2.光线充足的条件：在光线充足但分辨率较低的条件下预测得到的图像，该图像可以提供足够的曝光信息，它比更接近真实情况，而且具有光线充足的高频细节。

3.第一个尺度光照充足的条件：来自的光线良好但分辨率较低的条件下的预测结果。这个图像提供了一个全局统一的曝光水平条件，进一步约束了恢复图像的曝光水平。

值得注意的是，如果，DiD就会缺少之前几个尺度的历史条件或，所以这里作者用训练对 , 和来定义调节输入和真实值，这是一个双线性下采样操作，可以把输入减少到分辨率，条件输入可以写成：

其中，或是固定的训练分辨率，这里将定义为对输入图像的裁剪操作（称为“Single Patchify”），将定义为上采样操作，使达到分辨率，并将定义为平均值为0且标准差从0到1的高斯噪声。如果，就可以将调节输入定义为:

在上式中添加是为了方便模型在推理阶段更好的估计在后续尺度上的噪声信号。对于训练阶段的前向扩散过程，通过向添加噪声，就可以将一个加噪图像和一个噪声通道送入到去噪网络，来生成一幅重建图像:

DiD中使用U-Net[1]作为扩散模型的基础网络，DiD的每个去噪步骤中均使用L2损失和LPIPS损失的线性组合来进行优化。

2.2 Inference Phase

在DiD的推理阶段，作者设计了一种级联方法对图像进行操作，详细的操作过程如下图所示。

推理过程从一个已知的低光照图像开始，并产生一系列的条件输入，对其进行反向的扩散操作，并将当前得到的扩散预测结果作为下一个尺度的输入。通过这种迭代的方式直到生成最终的分辨率为的光照充足的图像。在这一过程中，作者发现，即便DiD光照预测是在完全相同的条件下进行的，但在不同尺度的图像块上仍然存在曝光水平和白平衡的现象。为了实现图像光照处理的尺度一致性，作者加入了一个额外的步骤：迭代隐变量优化（Iterative Latent Variable Refinement，ILVR）[2]，ILVR可以在DiD的反向去噪的每一个步骤中，使用前一个尺度低分辨率图像中的低频内容来替换当前预测尺度中的低频细节。此外，在模型中引入ILVR不需要进行额外的训练，因为它只在推理阶段发挥作用。

2.3 Data Normalization

除了对不同尺度图像块中的曝光和白平衡情况进行处理，DiD还对低光照图像的数据归一化/标准化进行了考虑。在图像处理领域，Z-scoring是一种常用的数据标准化手段，它会将数据的分布转换为正态分布。但是考虑到低光照图像的长尾特性（右偏特性），如下图所示，直接使用Z-scoring这一类的标准化方法可能是不合适的。

扩散模型在训练时需要选择一个噪声的可控范围，和，DiD在设计值时，希望使绝大多数图像都能处在这个噪声范围内，从而方便对图像数据进行归一化，使分布规范在之间，并且和的近似高斯分布。本文作者发现，对于长尾分布低光照数据，可以先对数据取四次方根，然后进行Z-score标准化，最后除以2可以得到一个比较合适的数据分布，有助于模型的对图像进行光照处理，作者将这种标准化方式称为Tail-Normalized。

三、实验效果

本文的实验在该领域比较常用的低光照图像数据集（LOw-Light，LOL）上进行，LOL包含485个训练样本对和15个测试低光照/光线充足的图像对，评价指标使用PSNR、SSIM和LPIPS。作者首先评估了DiD与一些传统低光照图像处理方法以及最近提出的一系列扩散模型方法的效果差异。详细数据对比如下表所示。

在这一实验中，作者对于以扩散模型为基础的方法，会对每张测试图像重复进行十次扩散操作，并选取其中效果最好的一个。可以看出，DiD在数值指标上并没有获得最好的效果，但是与现有的SOTA方法性能相当，这是因为像PSNR和SSIM这种数值指标并不一定能够反应图像的真实效果。作者随后也展示了一些DiD与其他方法的视觉对比效果，如下图所示，可以看到，DiD在某些情况下，相比SOTA方法可以恢复出更加精细的笔迹等高频细节。

在低光照文字识别下游任务中，作者在真实场景文本数据集：IIIT5k-Words (IIIT5k)、ICDAR 2013 (IC13-1015)、街景文本 (SVT)和 SVT-Perspective (SVTP)等数据集上进行了评估，DiD明显有更好的性能表现，如下图所示。

在没有针对任何文本进行特定优化的情况下，DiD可以在极端黑暗和嘈杂的条件下展示出非常良好的图像恢复和文字识别效果，文字识别率可以超过75%。而其他对比方法都会随着条件的恶化而出现识别不准确的情况。作者还进一步展示了DiD与这些方法的文字识别可视化对比，如下图所示。

四、总结

本文提出了一种在极端低光照环境中的扩散图像恢复模型DiD，DiD将原本复杂且困难的低光照图像与光照充足图像像素点的映射关系使用扩散模型进行建模。作者还为DiD设计了一种多尺度图像块训练方法，该方法使得DiD仅通过对较小的图像块进行处理就可以应对多种尺度分辨率的低光照图像。此外，DiD巧妙借助了扩散模型的特点，将当前尺度之前的历史扩散估计结果作为当前图像重建的输入，通过这种迭代的方式可以获得更好的图像恢复效果，同时这一过程所保留的图像高频细节也有助于提高下游图像文本识别任务的性能，经DiD处理后的低光照图像在图像文本识别任务上可以达到SOTA性能。同时这一工作也为我们提供了一种使用扩散模型处理底层图像任务的新范式。

参考文献

[1] Olaf Ronneberger, Philipp Fischer, and Thomas Brox. U-net: Convolutional networks for biomedical image segmentation. In International Conference on Medical image computing and computer-assisted intervention, pages 234–241. Springer, 2015.

[2] Jooyoung Choi, Sungwon Kim, Yonghyun Jeong, Youngjune Gwon, and Sungroh Yoon. Ilvr: Conditioning method for denoising diffusion probabilistic models. arXiv preprint arXiv:2108.02938, 2021.

作者：seven_

Illustration b y Ira Design fro m IconScout

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线480+期talk视频，2400+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

chenhongyuan@thejiangmen.com

或添加工作人员微信（chemn493）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于发掘、加速及投资技术驱动型创业公司的新型创投机构，旗下涵盖将门创新服务、将门技术社群以及将门创投基金。