视频单曝光压缩成像系统提供了一种低成本、低带宽的解决方案用于高速运动场景的采集。目前,视频单曝光压缩成像硬件系统已经比较成熟,基于深度学习的重建算法也取得了不错的重建效果,但仍面临挑战。针对视频单曝光压缩成像系统所面临的问题,来自浙江大学和西湖大学的研究人员提出了一种 基于CNN-Transformer架构的高效、大尺度视频单曝光压缩成像重建算法EfficientSCI++。
论文标题: Hybrid CNN-Transformer Architecture for Efficient Large-Scale Video Snapshot Compressive Imaging 论文链接: https://link.springer.com/article/10.1007/s11263-024-02101-y
一、背景介绍
在之前的工作中,人们通常使用高速相机采集高速运动场景,但是这样就会带来较高的硬件成本和数据传输带宽。受到压缩感知技术的启发,视频单曝光压缩成像系统提供了一种低成本、低带宽的解决方案用于高速运动场景的采集。
如图1所示,视频单曝光压缩成像系统由硬件编码器和软件解码器组成:硬件编码器采用多张不同的调制编码来调制高速运动场景,之后通过一个低速相机在其单个曝光时间内采集一系列单曝光压缩测量值;软件解码器将单曝光压缩测量值和相应的调制编码输入到视频单曝光压缩成像重建算法中恢复出高速运动场景的图像序列。
一方面,视频单曝光压缩成像硬件系统已经比较成熟。另一方面,基于深度学习的重建算法也取得了不错的重建效果。但是,当前仍然面临以下挑战:
1)目前的重建算法往往具有较高的计算复杂度;
2)现有的重建算法无法重建大尺度、高压缩比的场景;
3)之前的工作没有深入研究重建算法对于不同压缩比的灵活性。
针对以上问题,来自浙江大学和西湖大学的研究人员提出了一种基于CNN-Transformer架构的高效、大尺度视频单曝光压缩成像重建算法EfficientSCI++。
二、EfficientSCI++算法详解
EfficientSCI++算法的网络结构如图2所示,其主要包括:
1)初始化模块(给定压缩测量值和调制编码,生成模糊的视频帧);
2)特征提取模块(由卷积核为3×3×3和1×3×3的两个3D卷积层以及对应的LeakyReLU激活函数组成,将输入图片序列映射到高维特征空间);
3)ResHNet模块(由3个ResHNet单元组成,用于高效地构建时空关联性)。其中,每个ResHNet单元由多个ResHNet块堆叠而成;
4)视频重建模块(由PixelShuffle操作和卷积核为1×1×1,3×3×3的两个3D卷积层组成,将高维特征映射到图片序列得到最终的重建结果)。
现在,我们重点讲解一下EfficientSCI++ 的核心网络设计:基于特征通道划分机制的ResHNet块。如图2.c所示,我们首先将输入特征沿着特征维度分成多份。然后,我们利用CFormer块高效地构建时空连接。最后,我们将所有CFormer块的输出特征沿着特征通道维度连接到一起,随后通过一个1×1×1卷积层更好地融合特征信息。不难看出,CFormer块在ResHNet块中起到至关重要的作用。
如图3所示, CFormer块基于时空分解机制和CNN-Transformer架构,其主要包括:
1)空间域卷积分支(2个卷积核为3×3的2D卷积层可以很好地提取局部空间特征,同时算法复杂度和内存占用也会大大降低);
2)时间域自注意力分支(在每一个像素点位置,沿着时间维度使用自注意力机制,这么做可以很好地建立长时序特征关联);
3)基于门控机制的前馈神经网络(Gating mechanism based Feed Forward Network,简称GFFN)。
和之前的前馈神经网络相比,GFFN可以更好地控制网络中的信息流从而抑制网络中的无用信息,只让有用信息在网络中传递。此外,我们在GFFN的第一个线性转换层后面加入一系列零填充大小为1的3×3×3卷积操作实现了动态位置编码。因此,在压缩比变化时,EfficientSCI++仍然可以给出很高的重建质量。
三、EfficientSCI++性能分析
在实验部分,我们在六个灰度仿真测试数据(256×256×8)、六个中等尺度彩色仿真测试数据(512×512×3×8)和四个大尺度彩色仿真测试数据上进行测试。然后,为了验证重建算法在真实测试数据上对于不同压缩比的灵活性,我们制作了一个压缩比从10到50逐渐变化的灰度和彩色真实测试数据集。最后,我们在另外两组真实测试数据上进一步验证EfficientSCI++ 在实际系统中的性能。由于篇幅限制,这里只给出部分实验结果。
其中:
1)如图4所示, EfficientSCI++ 可以取得和之前的重建算法相当的重建质量,但是测试时间大大缩短;
2)如图5所示,压缩比从8变化到48时,EfficientSCI++ 能够更好地保证重建质量;
3)从表1可以看出,EfficientSCI++ 第一次在1644×3480×3,压缩比为40的大尺度彩色仿真测试数据上给出34dB以上的重建质量;
4)针对快速运行的场景,EfficientSCI++ 也可以给出精确的重建结果,如图6所示。
四、结论
基于CNN-Transformer架构,本文提出一种高效、大尺度的视频单曝光压缩成像重建算法EfficientSCI++。大量的实验数据表明:相比于之前的视频单曝光压缩成像重建算法,EfficientSCI++可以给出相当的重建质量,然而计算复杂度大大降低。此外,为了验证视频单曝光压缩成像重建算法对于不同压缩比的灵活性,我们构建了一套压缩从10到50连续变化的灰度和彩色真实测试数据集。
llustration From IconScout By Delesign Graph
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(
www.techbeat.net) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
chenhongyuan@thejiangmen.com
或添加工作人员微信(chemn493)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴