让失去的时光重现光彩——真实世界视频智能增强技术|插值|真实世界|算法|视频智能增强技术|视频生成模型

上海科技奖励获奖成果科普化特别报道

坐在影院欣赏4K修复后重映的老电影时，你是否好奇过这些几十年甚至一百多年前的影像如何像被施了魔法一样变得色彩鲜艳、纤毫毕现？真实世界视频智能增强技术功不可没。

文/董超

中国科学院深圳先进技术研究院多媒体集成技术中心主任，研究员，博士生导师。

无中生有的图像超分辨率

首先，请看下图中左边这幅小猫的图像，在大脑中试着将它放大2倍、4倍……认真想象每一个细节。你发现了什么？很困难，对不对？大脑里可以出现这幅图放大之后的模糊影像，但我们很难脑补出清晰的细节。图像超分辨率算法（简称超分）就是要将这幅图像的细节无中生有地“算”出来，使之像下图中的右图一样栩栩如生地展现在我们眼前。有时候，用超分对图像或视频进行处理也简称“超分”。

▲图像超分辨率示意图

左图为原图，右图为超分辨率图。

超分是图像和视频增强领域中最重要的基础算法，在这个领域里，人工智能算法一直做得比人类好，很难被人类取代，这与其他领域恰好相反。更重要的是，我国原创的超分算法一直领先世界，这在人工智能领域里也是屈指可数的。

无中生有，听着不像科学而像玄学。确实，如果是没有理由的想象，那就不是科学。超分的科学性就在于它可以利用先验知识来复原可靠的信息，再利用个性偏好来生成可能的细节。举例来说，如果我们要超分一张人脸图像，那先验知识就是对人脸的普适性理解，如五官的数量和边缘的形态，这些都是不言自明的常识，利用它们就可以恢复出边缘清晰、五官正常的人脸。个性偏好就更主观一些，例如，我们希望皮肤更加光滑水润，眼睛更加明亮有神，那就需要生成相应的纹理来满足个性化的需求。同样地，对不同性别、年龄、肤色的人脸都应该生成出不同的细节。这样一来，超分就有了两个目标：一个是恢复真实信息，一个是生成逼真细节。实际的算法往往会结合两者，但会根据应用场景有不同的侧重点。

深度学习超分算法

用深度学习来做超分是我国科学家首创的，其中用到的方法名字叫SRCNN，也就是“超分辨率卷积神经网络”的英文首字母缩写。它借助深度学习强大的数据拟合能力，可以将缺失的信息复原和生成出来。那么，它是如何做到的呢？首先，我们要解释一下传统的插值算法，这可是超分算法的鼻祖，它的基本原理可以逐步拓展到深度学习中。所谓插值，就是在两个像素之间插入一个新的像素，借助某些数学公式，就可以计算出新像素的数值。最简单的公式就是求平均数，也就是让插入的像素是周围像素的均值。这样可以很容易地补充大量像素，但超分后的图像会过于平滑，不符合人们对自然图像的理解。于是，我们可以进一步地把插“像素”变成插“图像块”，也就是让新的图像块来自原有图像块的某种组合，组合出的图像块会自然保留原有图像块的性质，也就更像自然图像。然而，直接组合图像块会带来模糊的现象，而且无法生成新的细节。为了解决这一问题，我们就要将组合图像块改成组合图像块的特征，这样可以避免纯像素叠加带来的噪声，也可以让复原出的图像块更加自然。同时，我们也需要求助于外部的图像数据库，以此来获得更丰富的先验信息。那么，如何体现图像块的特征，又如何利用数据库的信息？机器学习算法就应运而生了。它可以通过特定的学习机制，让算法从数据中自行学习特征，再从特征中复原出自然图像。

深度学习是机器学习的一种，也是目前为止最高效、最易拓展的方式。通过深度学习来做超分，可以极大地提升超分效果。最早的深度学习超分模型SRCNN可以分成3个功能部分，分别是特征提取模块、非线性映射模块和图像复原模块。模型全部由卷积层连接而成，层数只有3～5层。后来，更加先进的模型通过引入残差模块、密集连接、注意力机制和归一化层，可以将网络深度增加至上百层，其拟合能力也成几何倍数增长。在模型训练阶段，需要通过损失函数来确定优化目标，让深度网络可以在特定的方向上优化参数。如果想要复原真实信息，那么优化损失函数就是在让输出图与理想图之间的均方误差变小。如果想要生成更多细节，就可以加入判断图像是否符合自然图像分布的判别函数以及特征层面的视觉相似性函数，来增加输出图像的真实度。除此之外，我们还可以借助其他领域的模型（如扩散生成模型和图像分割模型）作为辅助，让超分效果更上一层楼。经过10年的发展，目前的深度学习超分模型已经非常强大，它们具有上亿的参数，可以从几千万张图像中学习，且达到人眼都无法识别出的逼真程度。下图展示了传统的插值算法、首个深度学习超分模型SRCNN和目前最新的超分算法SUPIR的效果差异，从中可以看到技术的巨大进步。

▲不同超分算法效果

左图为插值算法超分结果，中图为SRCNN 超分结果，右图为SUPIR 超分结果。

复杂多变的真实世界视频

然而，要复原真实世界的视频，只有超分还远远不够。前面所讲的超分只是在理想情况下的算法，而真实世界的数据要复杂得多。什么是理想情况，什么又是真实世界呢？所谓理想情况，就是假设输入图像是清晰的自然图像，且与训练数据库中的图像有一致的分布。真实世界中的视频（或者说是现实生活中可以直接获取的视频）往往都存在各种各样的问题，例如，20世纪80年代的《西游记》，除了分辨率低以外，还含有因压缩、失焦、模糊、胶片损坏等产生的画质损失。更麻烦的是，这些损失成因各异，难以用确定的、统一的数学模型进行描述，从而失去了求解逆问题的可能性。当这些失真交织在一起时，超分算法就会将噪声当成细节进行放大，将模糊当成平坦区域进行忽略，从而造成更加严重的画质问题。除此之外，视频原有的色彩也不够鲜艳，还需要额外的算法来增强。如此一来，复原真实世界的视频就成了一个复杂的综合性工程，其难度远高于理想情况下的单一算法。

真实世界视频智能增强技术

为了应对真实世界中复杂多样的画质问题，我们采用了两条相辅相成的技术路线，分别是“真实世界退化建模”和“内容自适应超分”，它们一个关注真实信息的复原，一个关注内容细节的生成。真实世界退化建模看似是个数学问题，实际是个仿真问题。由于我们无法得知真实的退化是如何形成的，也就无法通过数学公式来准确描述。但是，我们可以想办法生成相似的退化类型，然后扩大退化的范围，从而将各种复杂的退化都囊括其中。继而用大退化空间来训练大模型，让模型具备处理各种复杂退化的能力。我们所采用的退化模型叫高阶数多层次退化模型，它不仅包含了各种常见的退化类型，如高斯噪声、失焦模糊、压缩伪影等，还包含了它们的各种线性和非线性组合。这样模拟出来的退化非常复杂，范围也很大，足以包含真实世界场景中的各种退化类型。

▲真实世界退化仿真建模示意图

内容自适应超分，顾名思义，就是要让算法对不同的内容进行个性化的生成。我们主要将人脸和各种风景通过算法分割出来，再分别进行特异性训练。以人脸为例，它往往是视频里的重点关注区域，有着更加鲜明的图像特征，我们通过收集大量人脸数据，让模型生成出更逼真的人脸细节。在算法层面，模型会增加一个语义分割模块和内容调制模块。语义分割模块会将图像按照内容进行分割，然后由内容调制模块将这些分割的信息重新整合（即空间变换函数），再输入到每一个卷积层中，来调整它们的参数（即调制网络）。最后再配合与内容对应的判别器作为损失函数，就可以输出内容自适应的清晰图像。

▲内容自适应超分算法示意图

除此之外，真实世界视频智能增强技术还包含前处理去噪算法、后处理色彩增强算法、视频插帧算法等，这些算法从时域、空域、色域等各个方面来提升视频画质，这才有了“让失去的时光重现光彩”的能力。这项技术已经被成功应用在了上百部历史视频增强当中，其中包括央视建党百年庆祝晚会现场的《开国大典》视频和中共一大会场的全部影像资料，也获得了2022年度上海市技术发明奖一等奖。但是，这项技术的开发还只是刚刚开始，它能生成的细节还很有限，我们期待未来有一天，可以将经典的四大名著影视剧都搬到4K荧幕上，让失去的时光更好地重现光彩。

*本文相关成果“真实世界视频智能增强技术及国产化应用”荣获2022年度上海市技术发明奖一等奖。

上海人工智能实验室

XPixel视觉团队

更多精彩内容见

《科学画报》2024年第5期