文 / 郑雅菁
摘 要:
视觉系统作为神经系统中重要的一环,为大脑提供超过80%的信息。因此,本研究从类脑视觉入手,探讨如何在模拟生物视觉系统的同时,发挥机器高性能计算的优势。具体则围绕新型神经形态传感器——脉冲相机,探讨如何面向高速场景发挥脉冲计算低时延的特性,完成高质量成像与超高速目标的检测跟踪任务。
关键词:
类脑计算;通用人工智能;脉冲相机;高质量成像
1 新型神经形态传感器概述
视觉信息占据我们日常所处理信息的绝大部分。视觉神经元规模庞大,内部复杂性高。而目前视觉信号绝大部分是以视频为载体。传统视频拍摄帧率通常为数十赫兹,在几十毫秒之间记录成像1次。这种拍摄频率无法记录光的快速变化过程,导致很多快速变化信息的丢失,进而成为限制机器视觉速度的关键因素。然而基于CCD/CMOS传感器和数字电路的数码成像本质上还停留在模拟时代,没有发挥电子和数字技术的潜力。
视网膜输出稀疏且具有高时间精度是视觉系统的一个主要优势,因此,有许多研究者也致力于研究模仿人类视网膜工作原理的神经形态视觉传感器,其模拟生物视觉系统对外部输入进行编码,根据外界光强变化输出信号。近年来,神经形态相机凭借着其超高的时间分辨率和高动态范围,在计算摄像、计算机视觉与机器人等许多领域广泛使用。神经形态相机主要包括事件相机与脉冲相机,它们都是直接根据光强的变化输出超高时间分辨率的事件或脉冲流。这两种相机应用的采样机制与视网膜的光电转换过程相似,且由于它们超高时间分辨率采样的优点,运动等连续时序信息被更精确和更完整的保留。
如图1所示,相比只保留运动部分信号的事件相机,脉冲相机保留的时空信息更加完善。每个脉冲都由脉冲发放位置(x,y)和发放时间t所构成。因此脉冲相机也更适合于场景的重建,而无需像事件相机般借助APS等灰度图片采集器。利用脉冲相机的高时间分辨率脉冲流,可以解决传统相机拍摄中过曝等问题,输出高动态范围的图片。基于脉冲相机输出信息的完备性及高时间分辨率的特点,使得脉冲相机在恢复超高速场景的纹理信息方面有着优势。近年来,围绕脉冲相机的新型脉冲视觉体系正蓬勃发展,涵盖从像素级的高质量成像、光流/深度估计任务,到物体级别的检测跟踪识别等任务。
图 1 传统相机、事件相机与脉冲相机的工作原理
2 脉冲视觉
脉冲视觉的研究指基于脉冲信号的仿生视觉表征及处理,其中的脉冲信号直接记录光信号的变化过程。仿生视觉表征可以从神经编码模型着手,了解视觉系统内部组件及组件之间的计算关系,而脉冲视觉信号的处理则主要是以面向视觉任务或是神经形态计算硬件的算法研究。下面分别从脉冲编码模型、脉冲相机视觉算法和神经形态硬件三个方面,对国内外研究现状进行介绍。
2.1 脉冲编码模型
将外界刺激(如视觉信号)转化为神经元脉冲响应的过程,是脑科学研究的关键问题,也对机器视觉和感知意义重大。如图2所示,脉冲相机初始的设计理念就来源于视网膜中央凹的采样机制,通过模拟视网膜“光感受器-双极细胞-神经节细胞”的结构,直接将外界的光信号转化为脉冲异步发放。探索视网膜编码模型,可为提高脉冲相机信号表征的高效性提供思路。与脉冲相机相关的编码模型的研究,包括视网膜编码模型及脉冲编码/模拟器。
图 2 脉冲相机中仿视网膜的中央凹采样模型
2.1.1 视网膜编码模型
视网膜作为心灵之窗,是生物视觉信息处理的始发站,负责对时空中不断变化的可见光进行实时编码。关于视网膜神经系统的编码研究,通常与系统辨识方法(system identification)密切相关。通过结合神经生物学实验,系统辨识方法主要通过构建模型将视觉场景编码为神经响应,以找到神经系统中的计算单元,例如神经元的感受野和非线性变换等计算组件。随着多电极阵列技术的发展,人们可以使用各种类型的光学图像来操纵光学刺激,包括简单的条形、斑点、光栅,以及复杂的自然图像和视频等,同时记录视网膜神经节细胞群体的响应。在这些实验技术的支持下,视网膜编码模型迅速发展。
模拟视网膜或其他初级视区的编码模型,主要是通过分析视觉刺激与神经元响应之间的关系,以构建与生物神经元类似的视觉处理过程,例如,在图3中的脉冲激发平均发放(spike-triggeredaverage,STA)模型、脉冲激发协方差(spike-triggeredcovariance,STC)模型及脉冲激发非负矩阵分解(spike-triggered non-negative matrix factorization,STNMF)模型等方法,主要是通过计算能够刺激细胞产生脉冲响应的输入的平均值、协方差或非负矩阵来分别获得神经元的感受野。除了这种分析神经元属性的方法外,还有其他主要以刻画神经元对视觉刺激的处理过程的脉冲编码模型,例如线性-非线性(linear-nonlinear,LN)模型、线性-非线性泊松(linear-nonlinear Poisson,LNP)模型或广义线性(generalized linear,GLM)模型等。这些模型主要是刻画神经元处理过程中线性、非线性或者适应性这些特征。
图 3 视网膜编码模型的研究进展
基于生物物理模型的视网膜神经系统,对研究简单的人造刺激图片比较有效,但是无法与视网膜处理的动态视觉刺激所对比,例如自然场景的图片和视频。此外,这些模型大多数是分析单个或少数神经元之间的关系,难以扩展至模拟大脑中大规模神经元群体的编码过程。而近年来,深度学习发展迅速,在对象识别和分类等任务表现出优越的函数拟合能力。因此,越来越多的研究者开始关注利用人工神经网络对视网膜编码过程进行建模。目前使用神经网络的编码模型主要利用卷积神经网络(convolutional neural network,CNN)或者循环神经 网 络(recurrent neural network,RNN) 学 习 输入刺激与神经元响应间的映射关系,并且分析神经网络隐层的单元是否与真实视觉通路具有相似性。为探讨群体视网膜神经节细胞响应与动态视觉刺激的映射关系,Zheng 等在 2021 年提出的卷积循环神经网络(convolutional recurrent neural network,CRNN)可预测大规模群体神经节细胞的响应,并且同时学习出这些细胞的时空感受野。
2.1.2 脉冲相机编码与仿真
目前,关于脉冲相机的编码工作主要是与视频编解码领域中的概念类似。脉冲编码通过脉冲流的统计特性对二值脉冲阵列进行压缩表示,脉冲压缩方法也包括有损与无损压缩两种。而脉冲仿真的研究主要是为了探索完善脉冲相机的工作机理同时,获得很多极端条件下的脉冲仿真数据,便于脉冲视觉相关研究的展开。
Dong et al. 首次介绍了脉冲相机的工作机制,并分析了场景的光强度与脉冲之间的关系。脉冲阵列的时空特性使得其可在时空域上进行不同的划分;在空域上其可以看成按时间顺序排列的二值脉冲矩阵的集合;在时域上可按像素划分成每个空间位置上的脉冲序列集合。按照空域和时域,Dong et al. 分别对二值脉冲本身,以及脉冲发放间隔进行了无损编码。为进一步提高脉冲信号的压缩性能,Zhu et al.提出了基于运动平面的脉冲阵列有损编码框架,包括多面体自适应划分、运动平面估计和判定、时空域运动估计和运动补偿,并融合变化编码、量化、熵编码等技术来实现高效的压缩。
深度学习目前成功应用于各类视觉 / 自然语言任务,且被用于研究神经科学中的核心问题。但是,深度学习的训练需要大量的训练数据。然而,为脉冲相机获取大规模数据集的代价高昂,因此,近年来出现可用于生成大规模脉冲数据的不同模拟器。Zhao et al. 根据相机的传感器原理,提出SpikingSIM 模拟器,用于从图像中生成脉冲数据。Hu et al. 提出 SPCS 基于渲染生成的图形模型生成脉冲数据和标签。
2.2 脉冲相机视觉算法
近年来,面向脉冲相机的研究取得了许多突破性的进展。脉冲视觉的算法可分为基于脉冲的高质量成像与高级视觉任务两个方面。
2.2.1 基于脉冲的高质量成像
脉冲相机产生的时空脉冲阵列具有较强的信息完备性,具有低延迟和高动态范围的优势。根据脉冲序列产生的原理,当光照强度越强时,单位时间内脉冲发放的数目越多,发放时间间隔也越短 ; 反之亦然。因此有两种直观的脉冲图像重建方法,即直接根据脉冲间隔法(texture from inter-spike-intervals,TFI)和脉冲频率法(texture from playback,TFP)来获得像素值的图像重构方法。在这两种重构方法中,需提前定义好统计脉冲时间间隔或脉冲个数的时间窗口,若窗口定义得过小,则重构图像的动态范围小,会丢失许多场景细节;若窗口定义得过大,则运动物体产生的运动模糊也会随之引入。因此,时间窗口的设定需根据场景进行权衡设定,对图像重构结果影响甚大。为解决这个问题,Zhu et al. 提出了基于图割(graph-cut)的重构算法,结合生物启发的神经元模型将场景中运动和静止区域分开重构。Zhao et al. 则通过脉冲序列的时间关系提高了图像重构的信噪比,在重构时估计了运动信息。SNM 使用具有脉冲时间依赖的可塑性(spike-timing-dependent plasticity,STDP) 规则的三层神经元模型,从脉冲重建图像。TFSTP 使用具有短期可塑性 (short-term plasticity,STP) 规则的神经元模型,根据输入脉冲序列自适应调整网络状态,从而通过网络状态估计像素值。Zhao et al. 提出了基于深度神经网络的 Spk2ImgNet,该网络将脉冲序列作为输入,自动提取不同时期的特征,形成参考帧和关键帧。MAHTF 使用自回归模型长期聚合脉冲。Chen et al. 基于盲点网络(blind spot network,BSN),以自监督的方式重建高速场景的图像。Zhu et al. 使用分光器联合脉冲相机和事件相机,实现高性能成像。
除了重建图像外,最近的一些研究还侧重于从脉冲数据中获取超分辨率图像和具有高动态范围(high dynamic range,HDR) 的图像。MGSR 使用运动信息对脉冲数据空间上采样。Xiang et al. 提出了一种用于超分辨率的数据驱动网络。Han et al. 使用脉冲相机来改善传统相机图像的动态范围。UnModNet 使用脉冲相机来近似取模相机用于HDR。
2.2.2 基于脉冲信号的高级视觉任务
除了利用脉冲信号进行高质量成像外,还有许多直接利用脉冲数据进行高级视觉任务的研究,例如光流估计、深度估计、高速目标的检测和跟踪。SCFlow 是一个金字塔深度网络,具有基于脉冲信号光流的运动自适应表示,该网络由基于图形的模拟数据训练。Spike2Flow 探索了脉冲序列的连续性来实现光流估计。为了更好的训练,Zhao et al. 提出了一个真实场景的脉冲光流数据集(real scenes with spike and flow,RSSF)。Wang et al. 提出了基于自我和交叉注意力的 Transformer,实现了第一个应用于脉冲相机的立体深度估计网络。Zhang et al. 提出使用 3D Swin Transformer 来表示脉冲流,并使用时空变形网络来估计单目深度。Huang et al. 和 Zheng et al. 提出使用脉冲神经网络,实现基于脉冲数据的高速检测和跟踪。Zhu et al. 使用 FPGA,进一步提高基于脉冲的检测和跟踪速度。Li et al. 提出使用脉冲相机和事件相机,同时模拟视网膜中央凹及眼周进行物体检测。
2.3 神经形态硬件
不同于神经形态视觉传感器模拟视网膜的神经机制,采用脉冲或事件的形式表达视觉信息的时空变化,神经形态计算芯片主要是模拟大脑神经元大规模,具有低功耗的优点,并且采用脉冲作为不同计算结点之前的传递信号。
2010 年,斯坦福大学的 Boahen et al. 开始启动神经形态项目 Neurogrid。2011 年,IBM 公司通过模拟大脑结构,首次研制出两个具有感知认知能力的硅芯片原型,可以像大脑一样具有学习和处理信息的能力。在该芯片中,每个神经元都是交叉连接的,具有大规模并行的能力。2014 年,IBM 对其芯片进行了升级,并发布了名为 TrueNorth 的第二代类脑芯片。英国的曼彻斯特大学也采用多核 ARM 搭建了神经形态计算平台 SpiNNaker。不同于 TrueNorth 中神经元间的权值是固定不可变的,SpiNNaker 可支持模拟神经突触可塑性规则。位于德国海德堡的 BrainScaleS 物理模型机在 20 个硅晶片上实现了 400 万个神经元和 10 亿个突触的模拟电子模型。随着工艺技术地发展,神经形态计算芯片上也支持越来越多的突触学习规则,可根据输入的视觉或者嗅觉等刺激信号,进行实时的信息处理并作出响应等,如英特尔公司的 Loihi 等。
除了国外研发的这些计算芯片,国内的清华大学也研发了可同时支持传统神经网络与脉冲神经网络的混合天机(Tianjic)芯片;浙江大学研发了超大规模类脑计算机——达尔文平台。
3 高速成像
在运动场景的拍摄中,由于摄像设备的限制或特殊环境条件,经常会得到模糊不清的图像。如果能够从这些模糊图像中恢复出这段时间内的图像序列,将大大增加我们从单张图像中获得信息的能力,对于许多领域都有重要意义。借助脉冲流超高时间分辨率的优势,可以提高对视觉信息记录的连续性。这种连续性可以帮助去除运动模糊,恢复单张模糊图像所蕴含的清晰运动场景。此外,通过快速移动脉冲相机,可以在短时间内便获得连续视角下的视觉信息。
3.1 基于脉冲的连续视角高速成像
密集遮挡物的存在,对视觉算法提出了挑战。最近,一些基于帧的算法提出了通过利用多视图图像,查看背景场景的方法来辅助遮挡物的消除。这项任务被称为合成孔径成像(synthetic apertureimaging,SAI)。与基于帧的相机相比,脉冲相机提供了更连续和更密集的运动线索,以便进行遮挡物的去除。传统相机在捕捉运动中的场景时经常会遭受运动模糊的困扰,这妨碍了使用单个相机获取多个透视视图。基于帧的算法依赖于相机阵列来弥补有限的视角,限制了它们在真实世界场景中的适用性。而基于脉冲相机可以利用仅一个快速移动的脉冲相机实现前景去除,无需复杂的设备或校准。我们定义的基于脉冲的合成孔径成像具有以下优势:①脉冲相机的高时序分辨率能够克服场景的运动速度所带来的限制;②仅需一个脉冲相机就足以捕捉连续视图。我们可以通过长短窗口特征提取器集成多视图时空信息,并采用一种新颖的跨视图互注意力模块进行有效的融合和细化。通过在包含真实世界基于脉冲的数据上进行实验,证明了脉冲相机可以有效地去除不同场景中的密集遮挡物,并且所提出的基于脉冲的合成孔径算法具有高效性和泛化能力。
3.2 脉冲引导的图像去模糊
传统相机在产生理想的视觉结果方面表现良好,但在高速场景中由于长曝光时间而出现运动模糊。现有基于帧的去模糊算法,在从严重模糊的图像中提取有用的运动线索方面面临挑战。相比之下,脉冲相机除了对运动物体敏感,还包含了完备的场景纹理强度信息。尽管如此,由于脉冲流采用的积分 -发放式编码方式,脉冲流由0和1组成,即意味着脉冲相机产生的数据无法直接被人眼观察到。目前大多数研究集中在如何高质量地从脉冲流中恢复出灰度图像。另外,现在有些研究也已经利用脉冲相机探索了目标检测、光流估计、深度估计等高级视觉任务。由于这些数据在空间上的不规则性,目前脉冲相机在这些任务上的表现不是非常出色。脉冲流的优势主要体现在时域上的密集性,并解决高速场景下的难题。
我们认为,图像和神经形态数据中的信息是可以互补的。图像域包含具有高保真度颜色的丰富空间纹理信息,而神经形态域提供丰富的时域信息,可记录快速运动。一些研究利用事件相机辅助图像去模糊。然而,大多数基于事件的方法单向地利用事件域的信息来辅助图像域,而没有实现来自两个域的信息的互补性。与事件相机不同,脉冲相机在保持高时间分辨率的同时,还以脉冲间隔的形式记录纹理信息。与仅有运动边缘信息相比,完整的纹理信息可以为去模糊任务提供更有价值的线索。正如图4所示,我们的目标是同时考虑来自两种模态的信息的双向传输,从而实现更高效的运动去模糊。
图 4 基于脉冲相机的高质量成像
我们提出了第一个具有双向信息互补性的基于脉冲的运动去模糊模型。模型引入了一个内容感知的运动幅度注意力模块,利用可学习的掩码有效地从模糊图像中提取相关信息,同时结合了一个转置的交叉注意力融合模块,以高效地融合来自脉冲数据和模糊的RGB图像的特征。此外,构建了两个广泛的合成数据集用于训练和验证,包括高时域分辨率的脉冲、模糊图像和对应的清晰图像。实验结果表明,我们的方法能够有效地从高度模糊的场景中恢复出清晰的RGB图像,并在多种场景中优于最先进的去模糊算法。图5中展示了所提模型在真实采集的RGB图像上的去模糊效果。
图 5 基于脉冲相机的 RGB 图像去模糊主观结果对比
4 超高速目标检测跟踪
神经形态视觉传感器根据场景辐射变化异步输出事件/脉冲,具有高时域分辨率,自然适合捕捉场景中的高速运动。然而,如何利用事件/脉冲来平滑跟踪高速移动物体仍然是一个具有挑战性的问题。现有方法要么采用耗时的迭代优化,要么需要大量标记数据来训练物体检测器。为此,我们提出了一个生物启发的无监督学习框架,利用神经形态视觉传感器生成的事件/脉冲的时空信息来捕捉固有的运动模式。在没有离线训练的情况下,此模型可以利用基于短期可塑性的动态适应模块过滤多余的信号,并利用基于脉冲时序依赖性塑性的运动估计模块提取运动模式。结合经过滤波的脉冲流的时空和运动信息,传统的DBSCAN聚类算法和卡尔曼滤波器可以在极端场景中有效地跟踪多个目标。
我们在合成数据、公开可用的基于事件的数据集和脉冲相机数据集上评估了提出的无监督框架在目标检测和跟踪任务中的性能。实验结果表明,所提出的模型可以在各种具有挑战性的场景中稳健地检测和平滑跟踪移动目标。图6中展示了我们基于脉冲神经网络所构建的两种无监督框架,对多个超高速旋转字符的检测跟踪效果。图中,上面两行为相机固定下拍摄的场景;下面两行为包含相机高速运动下拍摄的场景。
图 6 基于脉冲相机对多个高速旋转字符的检测跟踪效果(可视化背景为根据脉冲流重构所得图像)
5 结束语
结合生物视觉鲁棒低功耗与日渐提升的机器性能优势是如今发展机器视觉的一个重要途径。然而,如何结合两者的优势又面临着许多问题,例如生物视觉是如何在低功耗的情况下灵敏地实现视觉任务,从而能够实现生存繁衍?如何借鉴已知的生物视觉知识,去帮助设计更加高效的机器视觉系统?脉冲视觉不仅能为提升现有机器视觉在超高速场景的应用潜力,而且对于探索生物视觉系统的工作原理也具有重要意义,这两者相辅相成,有望为人工智能的研究提供新的解决思路。
(参考文献略)
郑雅菁
北京大学博雅博士后,UCL 荣誉研究员;国家自然科学基金青年项目获得者,入选中国科协“青年人才托举工程”。曾获 CCF 优秀博士学位论文奖,以及北京大学优秀博士学位论文奖、优秀博士后等奖励。
选自《中国人工智能学会通讯》
2024年第14卷第5期
青托专栏
热门跟贴