IJCV 2024 | EfficientSCI++：高效的视频单曝光压缩成像重建框架|压缩比|灰度|算法|编码器

视频单曝光压缩成像系统提供了一种低成本、低带宽的解决方案用于高速运动场景的采集。目前，视频单曝光压缩成像硬件系统已经比较成熟，基于深度学习的重建算法也取得了不错的重建效果，但仍面临挑战。针对视频单曝光压缩成像系统所面临的问题，来自浙江大学和西湖大学的研究人员提出了一种基于CNN-Transformer架构的高效、大尺度视频单曝光压缩成像重建算法EfficientSCI++。

论文标题： Hybrid CNN-Transformer Architecture for Efficient Large-Scale Video Snapshot Compressive Imaging 论文链接： https://link.springer.com/article/10.1007/s11263-024-02101-y

一、背景介绍

在之前的工作中，人们通常使用高速相机采集高速运动场景，但是这样就会带来较高的硬件成本和数据传输带宽。受到压缩感知技术的启发，视频单曝光压缩成像系统提供了一种低成本、低带宽的解决方案用于高速运动场景的采集。

如图1所示，视频单曝光压缩成像系统由硬件编码器和软件解码器组成：硬件编码器采用多张不同的调制编码来调制高速运动场景，之后通过一个低速相机在其单个曝光时间内采集一系列单曝光压缩测量值；软件解码器将单曝光压缩测量值和相应的调制编码输入到视频单曝光压缩成像重建算法中恢复出高速运动场景的图像序列。

一方面，视频单曝光压缩成像硬件系统已经比较成熟。另一方面，基于深度学习的重建算法也取得了不错的重建效果。但是，当前仍然面临以下挑战：

1）目前的重建算法往往具有较高的计算复杂度；

2）现有的重建算法无法重建大尺度、高压缩比的场景；

3）之前的工作没有深入研究重建算法对于不同压缩比的灵活性。

针对以上问题，来自浙江大学和西湖大学的研究人员提出了一种基于CNN-Transformer架构的高效、大尺度视频单曝光压缩成像重建算法EfficientSCI++。

二、EfficientSCI++算法详解

EfficientSCI++算法的网络结构如图2所示，其主要包括：

1）初始化模块（给定压缩测量值和调制编码，生成模糊的视频帧）；

2）特征提取模块（由卷积核为3×3×3和1×3×3的两个3D卷积层以及对应的LeakyReLU激活函数组成，将输入图片序列映射到高维特征空间）；

3）ResHNet模块（由3个ResHNet单元组成，用于高效地构建时空关联性）。其中，每个ResHNet单元由多个ResHNet块堆叠而成；

4）视频重建模块（由PixelShuffle操作和卷积核为1×1×1，3×3×3的两个3D卷积层组成，将高维特征映射到图片序列得到最终的重建结果）。

现在，我们重点讲解一下EfficientSCI++ 的核心网络设计：基于特征通道划分机制的ResHNet块。如图2.c所示，我们首先将输入特征沿着特征维度分成多份。然后，我们利用CFormer块高效地构建时空连接。最后，我们将所有CFormer块的输出特征沿着特征通道维度连接到一起，随后通过一个1×1×1卷积层更好地融合特征信息。不难看出，CFormer块在ResHNet块中起到至关重要的作用。

如图3所示， CFormer块基于时空分解机制和CNN-Transformer架构，其主要包括：

1）空间域卷积分支（2个卷积核为3×3的2D卷积层可以很好地提取局部空间特征，同时算法复杂度和内存占用也会大大降低）；

2）时间域自注意力分支（在每一个像素点位置，沿着时间维度使用自注意力机制，这么做可以很好地建立长时序特征关联）；

3）基于门控机制的前馈神经网络（Gating mechanism based Feed Forward Network,简称GFFN）。

和之前的前馈神经网络相比，GFFN可以更好地控制网络中的信息流从而抑制网络中的无用信息，只让有用信息在网络中传递。此外，我们在GFFN的第一个线性转换层后面加入一系列零填充大小为1的3×3×3卷积操作实现了动态位置编码。因此，在压缩比变化时，EfficientSCI++仍然可以给出很高的重建质量。

三、EfficientSCI++性能分析

在实验部分，我们在六个灰度仿真测试数据（256×256×8）、六个中等尺度彩色仿真测试数据（512×512×3×8）和四个大尺度彩色仿真测试数据上进行测试。然后，为了验证重建算法在真实测试数据上对于不同压缩比的灵活性，我们制作了一个压缩比从10到50逐渐变化的灰度和彩色真实测试数据集。最后，我们在另外两组真实测试数据上进一步验证EfficientSCI++ 在实际系统中的性能。由于篇幅限制，这里只给出部分实验结果。

其中：

1）如图4所示， EfficientSCI++ 可以取得和之前的重建算法相当的重建质量，但是测试时间大大缩短；

2）如图5所示，压缩比从8变化到48时，EfficientSCI++ 能够更好地保证重建质量；

3）从表1可以看出，EfficientSCI++ 第一次在1644×3480×3，压缩比为40的大尺度彩色仿真测试数据上给出34dB以上的重建质量；

4）针对快速运行的场景，EfficientSCI++ 也可以给出精确的重建结果，如图6所示。

四、结论

基于CNN-Transformer架构，本文提出一种高效、大尺度的视频单曝光压缩成像重建算法EfficientSCI++。大量的实验数据表明：相比于之前的视频单曝光压缩成像重建算法，EfficientSCI++可以给出相当的重建质量，然而计算复杂度大大降低。此外，为了验证视频单曝光压缩成像重建算法对于不同压缩比的灵活性，我们构建了一套压缩从10到50连续变化的灰度和彩色真实测试数据集。

llustration From IconScout By Delesign Graph

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（