CVPR 2024 | 1655FPS，速度巨大提升！自蒸馏MAE是高效的视频异常检测器|cvpr|fps|序列|编码器|视频异常检测器|速度

视频异常检测是智能安防领域中的基础应用，在现实场景中有着广泛的应用。现有的异常检测方法虽然能够实现很好的检测性能，但是推理速度仍然无法达到实时部署的要求。本文介绍一篇发表在计算机视觉顶会CVPR 2024上的论文，本文将MAE引入到视频异常检测领域，提出了一种基于自蒸馏学习的轻量级自编码器Self-Dis MAE，作者设计了一种基于运动梯度的token加权方法，引导模型更加关注监控场景中的运动目标。随后将教师自编码器（教师AE）和学生自编码器（学生AE）集成到MAE架构中，通过教师解码器和学生解码器之间的差异来提高异常检测的性能。本文方法在推理速度和检测准确率之间实现了出色的平衡，推理速度达到了1655FPS（参数量仅为3M，0.8GFLOPs），这比其他SOTA方法快8到70倍，真正满足了实际场景的部署需求。

论文题目： Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors 论文链接： https://arxiv.org/abs/2306.12041 代码仓库： https://github.com/ristea/aed-mae

一、引言

监控视频异常检测不同于普通的二分类问题，是一项复杂的推理任务，其复杂性来源于异常事件本身的场景上下文依赖性，且不会经常发生。这使得我们收集大量可用的训练数据集变得非常困难，尤其是一些危害性较大的异常事件。这导致我们无法在全监督的设置下对异常检测模型进行训练，目前大多数方法都将该任务视为一种离群检测任务（outlier detection），即仅在正常样本上训练一个自编码器（AE），在推理阶段将严重偏离自编码器嵌入空间的事件标记为异常。

本文提出的Self-Dis MAE仍然遵循离群检测设置，但是为了提高模型识别异常事件的性能，本文作者提出可以在训练时引入一些合成异常来提高模型的泛化能力。此外，为了提高模型推理效率（本文方法与其他SOTA方法的推理速度对比如上图所示），作者在原有AE的基础上加入了三种改进措施：

（1）提出了一种基于运动梯度的重构加权损失，可以引导自编码器更加专注于场景中的前景目标。

（2）作者在教师AE中加入了一个轻量级的分类头来区分潜在编码空间中的正常实例和伪异常实例，这帮助模型更好的学习正常与异常之间的差异。

（3）本文提出了一种简单高效的自蒸馏机制，将教师解码器和学生解码器集成到MAE框架中，学生解码器可以直接从已经优化好的教师解码器中获取知识，从而在推理阶段大幅提升计算速度。

二、本文方法

Self-Dis MAE的整体框架如下图所示，作者首先引入了一种基于Teacher-student Transformer的轻量级MAE。Self-Dis MAE的训练过程分为两个阶段，在第一阶段，主要使用token级重构损失来优化教师AE，该损失相比先前方法根据运动梯度进行了加权增强。在第二阶段，模型主要优化学生AE中的解码器（为了提高推理效率，学生AE的解码器仅设置了一层），学生AE与教师AE的编码器的参数共享。

2.1 运动梯度增强的MAE

本文的Self-Dis MAE仍然遵循Transformer架构规范，但是为了提高推理效率，作者将原始MAE[1]中的ViT块更换为运算速度更快的CvT块[2]，并且使用逐点卷积（pointwise convolutions）替换CvT块中的所有密集层。首先将输入视频帧序列进行tokenize处理得到图像块，并进行随机mask。保留下来的token块被送入到教师AE中进行编解码处理，教师AE的编码器解码器呈对称架构，都由三个计算块构成。学生AE的解码器从教师解码器衍生而来，仅添加了一个额外的计算块。

考虑到监控视频的具有长时间固定的静态背景，使用MAE不断重构静态背景太过冗余，因而作者提出了一种运动梯度加权方法，该方法主要作用在AE的重构损失中，首先令当前视频帧的token集合，为对应重构得到预测token集合。运动梯度图通过计算连续帧之间的绝对差来得到，随后按照视频token集合的数量来将划分为不重叠的梯度块，在每个梯度块位置上取最大值作为梯度幅值，随后在通道维度进行平均，并计算每个梯度位置占整体梯度图的权重：

随后就可以将所得权重引入到普通的token重构损失（通常是MSE）中，这样做可以引导模型更加关注与画面中具有高运动幅度的区域，这些区域更有可能出现异常事件。加权后的均方误差损失可以表示如下：

2.2 使用UBnormal合成异常视频

AE是视频异常检测领域中常用的建模工具，基于AE的方法建立在这样一个假设基础上，即模型对异常样本的重构误差要远远高于对正常样本的重构误差，我们可以根据这两者之间的差异来将异常事件鉴别出来。但在实际场景中，研究者们发现，AE对一些位于训练分布之外的异常样本同样能够重构的很好，从而影响了最终的检测性能。

为了解决这一问题，作者提出在训练阶段使用异常事件来增强训练视频。考虑到异常样本本身的稀有性，收集起来会耗费大量的人力物力。因此作者采用了一种合成虚拟异常的方式，具体来说，作者首先从UBnormal数据集[3]（在Cinema 4D中使用虚拟动画角色和对象合成的异常检测数据集，发表于CVPR2022）提取异常前景，随后将异常前景添加在真实监控场景的背景中，合成得到的异常视频如上图所示。

当加入合成异常对模型进行训练时，在原有的重构损失中，作者将原始视频帧（没有叠加异常）视为ground-truth，这样可以强制AE在重构时忽略场景中的异常，同时将异常检测任务分为识别异常和重构场景两个子任务。作者额外设置了一个异常分类头，用来对当前画面中的异常前景进行分割，该任务可以使用交叉熵损失函数进行优化：

此外，在加入合成异常后，运动梯度权重需要修改为，其中是合成异常前景对应的anomaly map。

2.2 自蒸馏机制-两阶段训练

先前基于知识蒸馏的异常检测方法，主要根据教师AE和学生AE之间输出的误差大小来判断异常，作者认为这种方法需要对同一段视频序列推理两次，计算较为冗余。为了提高计算效率，作者在Self-Dis MAE中设计了一种自蒸馏机制，此时教师AE和学生AE共享同一个编码器，但学生AE的解码器仅为非常轻量的一层结构。模型训练过程分为两个阶段进行，在第一阶段，只对教师AE进行重构训练，随后在第二阶段冻结AE共享编码器的权重，通过自蒸馏损失训练学生解码器，其中教师AE重构得到的token集合为，学生AE重构得到的token集合为，自蒸馏损失可以定义为：

三、实验效果

本文的实验在四个标准异常检测数据集上进行：Avenue、ShanghaiTech、UBnormal 和 UCSD Ped2。其中Avenue、ShanghaiTech和Ped2是中真实场景中采集得到，UBnormal是一个合成（虚拟）数据集，包含视频游戏角色模拟的异常。实验评估指标使用AUC，下表展示了本文方法与其他SOTA方法的性能对比情况，本文方法在Avenue数据集上获得了91.3%的Micro AUC得分，超越了其他方法。此外，虽然在UBnormal上，本文方法的性能为58.5 MicroAUC，但速度远远超越了其他方法。

作者在下图中展示了本文方法在Avenue数据集上的异常分数曲线，其中红色矩形表示异常事件的ground-truth，可以看到，本文方法几乎完美的拟合了异常区域。

此外，作者还对合成异常的比例进行了消融研究，从直观上理解，在训练阶段加入的异常样本越多，模型的最终性能可能会越好，作者通过实验发现（如下表所示），一味的增强并不是最优解，当加入概率为25%时，模型对异常的泛化能力会达到最佳。

本文提出的Self-Dis MAE的一个核心亮点是推理速度的大幅提高，本文方法在异常检测性能与速度之间取得了一个较好的权衡，作者在下表中展示了本文方法与其他方法在GFLOP 和参数数量方面的比较，可以看到，本文方法的参数量仅有3M，推理速度为1655FPS，比其他所有方法都取得了巨大的提升。

此外，作者还对Self-Dis MAE的重构效果进行了展示，如下图所示，在所有四种异常情况（Jumping、Runing、Fighting、Cycling）中，本文方法在异常区域的重建误差明显更高，这一现象主要归功于本文基于合成数据增强的训练过程，因而最终预测的异常区域与异常ground-truth非常吻合。

四、总结

本文针对监控视频异常检测任务提出了一种高效的轻量级MAE自动编码器框架Self-Dis MAE，实现了推理精度与速度之间的良好权衡。Self-Dis MAE首先根据运动梯度来重构视频序列token，随后通过自我蒸馏，利用教师和学生解码器之间的差异进行异常检测。此外，作者还创新性的引入了一种基于正常训练数据重叠合成异常的数据增强技术来提高模型的性能。本文方法实现了非常惊人的1655FPS推理速度，非常适合在实际场景中落地使用。

参考

[1] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Doll´ar, and Ross Girshick. Masked Autoencoders Are Scalable Vision Learners. In Proceedings of CVPR, pages 16000–16009, 2022.

[2] Haiping Wu, Bin Xiao, Noel Codella, Mengchen Liu, Xiyang Dai, Lu Yuan, and Lei Zhang. CvT: Introducing Convolutions to Vision Transformers. In Proceedings of ICCV, pages 22–31, 2021.

[3] Andra Acsintoae, Andrei Florescu, Mariana-Iuliana Georgescu, Tudor Mare, Paul Sumedrea, Radu Tudor Ionescu, Fahad Shahbaz Khan, and Mubarak Shah. UBnormal: New Benchmark for Supervised Open-Set Video Anomaly Detection. In Proceedings of CVPR, pages 20143–20153, 2022.

Illustration From IconScout By 22

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（