WACV 2021| FPN中用于微小目标检测的有效融合因子|原理|实验|尺度|梯度|检测器

基于FPN的探测器在一般目标检测方面取得了显著的进展，如MS COCO和PASCAL VOC。然而，这些检测器在某些应用场景下会失败，例如，微小物体检测。

本文认为，FPN中相邻层之间的自顶向下连接为微小目标检测带来了双面影响，而不仅仅是正面影响。我们提出了一个新的概念，fusion factor，以控制信息从深层传递给浅层，以适应FPN的微小目标检测。通过一系列的实验和分析，我们探讨了如何通过统计的方法来确定某一特定数据集融合因子的有效值。该估计依赖于分布在每一层的对象数量。在微小物体检测数据集，如 TinyPerson和tiny CityPersons上进行了全面的实验。我们的结果表明，当使用合适的fusion factor配置FPN时，网络能够在微小目标检测数据集上取得显著的性能收益。代码和模型将会发布。

论文信息

论文题目：Effective Fusion Factor in FPN for Tiny Object Detection
WACV 2021
论文地址：arxiv.org/pdf/2011.0229
代码地址：github.com/ucas-vg/Effe

研究背景

小目标检测问题是当前计算机视觉领域中一个重要方向。现有的基于FPN结构的特征融合检测器，通过自顶向下和横向连接的结构将不同尺度的特征进行融合，并在现有的通用目标检测数据集上取得了不错的效果。然而这些目标检测器在小目标检测数据集上如TinyPerson和Tiny CityPersons（四倍下采样CityPersons）上的效果并不理想。

针对这种情况提出了两个问题：

1.为什么当前基于FPN的目标检测器不能很好的适用于小目标检测任务？

2.应如何对他们做出改进？

本文提出了Fusion Factor ，用于控制FPN相邻层特征融合时，较深层特征的权重系数（传统FPN中相当于将其设置为1）。本文分析了FPN的工作原理，认为FPN本质上在进行多任务学习（分治思想），理想情况下，不同层只专注于负责其对应的不同尺度object的预测（浅层小目标，深层大目标）。然而在实际情况下，每层在监督学习中都会间接收到其他层的影响（计算loss），每层都在学习所有尺度的object。在小目标检测任务中小目标为数据集中的主体，每层获得的有效信息较少，情况更明显。

在tiny数据集上使用不同fusion factor

在通用数据集和tiny数据集上使用不同的fusion factor

本文研究Fusion Factor的动机在于当尝试在小目标数据集上引入不同的fusion factor时发现目标检测器的效果先升后降，而改变fusion factor对通用数据集并无明显影响，说明fusion factor在小目标检测中是起作用的。本文以此为切入点，从四个方面对fusion factor进行研究。

针对有效的

Fusion Factor的研究

引入fusion factor的FPN网络结构

FPN中相邻层特征融合可表示为：

什么影响了fusion factor的有效性？

针对这个问题论文提出了四种猜想：

1.目标的绝对大小

2.目标的相对大小

3.数据集中的数据量

4.目标在FPN每一层上的分布情况

本文对Tiny CityPersons数据集进行了不同倍率的上采样，同时对目标检测器中的预定义anchor尺度也进行了相应大小的缩放，实验结果如图所示。

通过对数据集中的图像进行上采样，保证了数据集中目标的相对大小相同，数据量相同，同时通过缩放anchor尺度保证各层对应的目标数量相同。从实验结果中可以看出fusion factor对小目标有效，对具有放大目标的数据集几乎没有作用。通过实验作者证明了影响factor fusion效力的因素是目标的绝对尺度。

如何获得有效的fusion factor？

本文提出了四种学习有效fusion factor的方式：

1.暴力解决，枚举fusion factor

2.可学习的方式，将设置为可以通过loss优化的可学习参数

3.基于自注意力机制方法生成

4.基于统计的方法，通过统计各层对应的目标数量计算得到，公式为：

统计方法计算fusion factor

本文针对提出的四种方法进行实验，得到的结果如下：

文中认为暴力解虽效果佳但计算过程存在很大冗余，自注意力方法带来的额外计算量不可忽视，而且只有统计法得到了与暴力法相近的结果，于是本文认为统计法是获得有效fusion factor的合理方式。

S法计算fusion factor具体流程

论文对统计法的合理性进行解释。统计法的计算公式基于：在小目标检测中，每层可以捕获的可有效用于检测任务的特征是有限的，加剧了不同特征层间的竞争。理想状态下，每层都希望所获得的特征用于本层目标的检测，但由于有些层先天负责的目标较少，所获得的信息少，在计算梯度优化参数时受到的影响也更大。因此当上层（深层）目标数量较少，或下层目标数量较大时，我们希望通过设置较小的fusion factor来削减计算梯度时浅层对较深层目标的影响。

能否隐式学习？

本文进一步提出问题，fusion factor能否被隐式学习。作者通过使用不同类别数据集，不同数据量数据集等进行实验，得出结论，当用于训练的数据集足够大时，fusion factor可以被隐式学习得到。具体细节感兴趣可以看原文。

对于Fusion Factor的数学解释

论文以反向传播时计算C4层梯度为例，从公式中可以看出若使用较大的，C4会从浅层中学习到更多的信息，同时损失用于深层检测的信息，反之亦然。

当使用大目标数据集，其所提供的特征信息是十分丰富的，每层学习到的信息较为充足，此时即使使用较小的，最终性能也并不会有什么影响，这就是之前实验中发现通用数据集对fusion factor设置不敏感的原因，然而对于小目标检测，获取信息有限较深层和较浅层都希望C4层学到利于检测本层对应目标的信息。浅层希望向深层回传的梯度信息更多，于是希望较大的；而深层希望更多的保存对应尺度目标的信息，希望较小的。二者之间的trade off呈现出文章开头实验中先升后降的结果。

实验结果

总结

本文提出了fusion factor的概念，针对小目标检测任务，分别对影响fusion factor的因素，获得最佳fusion factor，fusion factor的隐式学习和其数学原理进行研究讨论，证明了fusion factor引入FPN结构中的有效性，提出了基于FPN特征融合结构的新思路。

来源：知乎

作者：Herschel

｜深延科技｜

深延科技成立于2018年1月，中关村高新技术企业，是拥有全球领先人工智能技术的企业AI服务专家。以计算机视觉、自然语言处理和数据挖掘核心技术为基础，公司推出四款平台产品——深延智能数据标注平台、深延AI开发平台、深延自动化机器学习平台、深延AI开放平台，为企业提供数据处理、模型构建和训练、隐私计算、行业算法和解决方案等一站式AI平台服务。