文章来源:我爱计算机视觉(ID:aicvml)

在无人机航拍、卫星遥感等领域,如何精准又快速地识别出画面中的小目标,一直是个棘手的难题。这些小目标,比如远处的车辆、行人,在图像里可能只占了几个像素,特征提取过程中宝贵的空间细节一不小心就丢失了,导致模型“视而不见”或者“指鹿为马”。最近,来自南京航空航天大学的研究团队带来了一份颇有新意的答卷——PRNet。他们认为,与其在信息丢失后费力地重建,不如从一开始就死死“捍卫”原始信息。

打开网易新闻 查看精彩图片

论文标题 : PRNet: Original Information Is All You Have

  • 作者 : PeiHuang Zheng, Yunlong Zhao, Zheng Cui, Yang Li

  • 机构 : 南京航空航天大学

  • 论文地址 : https://arxiv.org/abs/2510.09531

  • 代码仓库 : https://github.com/hhao659/PRNet

  • “信息退化”:航拍小目标检测的“阿喀琉斯之踵”

    熟悉目标检测的朋友们都知道,神经网络在提取特征时,会逐层进行卷积和下采样,这个过程就像是不断对图像进行“浓缩”,以提炼出高层语义信息。但对于本身就像素很少的小目标来说,这种“浓缩”是致命的。几轮下来,本就模糊的边缘、纹理等细节信息可能就彻底消失了,导致后续的检测头“巧妇难为无米之炊”。

    打开网易新闻 查看精彩图片

    上图直观地展示了分辨率下降对不同数据集中目标可见性的影响。可以看到,在VisDrone和AI-TOD这类航拍数据集中,小目标在分辨率降低后,其边缘、纹理和形状信息损失惨重,几乎无法辨认。

    虽然现在主流的检测器大都采用特征金字塔网络(Feature Pyramid Network, FPN)及其变体,试图通过融合深层语义信息和浅层空间信息来缓解这个问题。但作者一针见血地指出,这些方法大多是在特征已经被“污染”之后进行“后期补救”,重建的细节往往已经偏离了最原始、最真实的信息,效果自然大打折扣。

    PRNet:捍卫原始信息的两大“法宝”

    面对这一困境,PRNet的核心思想非常直接:与其修补,不如保护。它把重点放在了如何最大化地保留和利用网络浅层那些未经处理的、最“新鲜”的空间特征上。为此,PRNet设计了两大核心模块:渐进式精炼颈(Progressive Refinement Neck, PRN)增强型切片下采样(Enhanced SliceSamp, ESSamp)

    打开网易新闻 查看精彩图片

    上图展示了PRNet的整体架构。可以看到,它在YOLOv11的基础上,用PRN替换了传统的PAN-FPN结构,并在骨干网络的前两层用ESSamp替换了常规的步进卷积下采样。

    渐进式精炼颈 (PRN):让浅层特征“物尽其用”

    传统FPN结构中,来自骨干网络的浅层特征图(比如P2)通常只在自顶向下的融合路径中使用一次,之后就被“抛弃”了。这在作者看来是巨大的浪费,因为这些特征图包含了最丰富的空间细节。

    PRN的设计就是为了解决这个问题。它引入了“骨干特征复用”和“渐进式融合”的机制。

    打开网易新闻 查看精彩图片

    从上图的对比中可以清晰地看到,传统的FPN、PAN等结构都是单向或双向的简单融合。而PRN(最右侧)则建立了一个迭代优化的闭环:它不仅进行自顶向下和自底向上的融合,还反复地(图中的橙色线)将骨干网络中那些“原汁原味”的浅层、中层特征重新引入到融合过程中,对高分辨率特征进行迭代精炼。这种设计确保了宝贵的空间细节在整个特征融合过程中始终“在线”,从而实现空间与语义的更优对齐。

    增强型切片下采样 (ESSamp):从源头减少信息损失

    除了在“颈部”做文章,PRNet还在“骨干”的下采样阶段进行了优化。传统的下采样方式,如步进卷积,为了降维会丢弃大量信息。

    ESSamp模块则是一种更“温柔”的下采样方式。

    打开网易新闻 查看精彩图片

    它首先使用PixelUnshuffle操作,将特征图的空间维度信息巧妙地重排到通道维度,实现无损的维度转换。然后,通过一个增强的深度可分离卷积(depthwise convolution)来提取特征。这里的“增强”体现在它为每个输入通道分配了多个卷积核(深度乘子d=2),从而在不大幅增加计算成本的前提下,提升了捕捉精细局部模式的能力。这套组合拳下来,ESSamp在完成下采样的同时,最大限度地保留了对小目标至关重要的细节信息。

    实验效果:精度与效率的双重胜利

    PRNet在VisDrone、AI-TOD和UAVDT等多个主流航拍图像数据集上进行了广泛实验,结果相当亮眼。

    VisDrone数据集上的SOTA表现

    在VisDrone验证集上,PRNet在不同量级的模型上都展现了卓越的性能。

    打开网易新闻 查看精彩图片

    例如,轻量级的 PRNet-N,参数量仅为 2.2M,就达到了 26.7% 的AP,超越了参数量更大的YOLO11-s。而中量级的PRNet,相比YOLO11-m,在AP提升 2.5% 的同时,参数量和计算量分别减少了 61.3%34.0%,实现了极佳的精度-效率权衡。

    打开网易新闻 查看精彩图片

    在更具挑战性的VisDrone测试集上,PRNet同样表现出色,AP达到了 24.2%,显著优于YOLOv8-M等方法。

    在AI-TOD和UAVDT上的泛化能力

    打开网易新闻 查看精彩图片
    打开网易新闻 查看精彩图片

    在包含大量极小目标的AI-TOD数据集和无人机视角的UAVDT数据集上,PRNet同样取得了领先的成绩,证明了其方法的普适性和鲁棒性。

    打开网易新闻 查看精彩图片

    上图的可视化结果生动地展示了PRNet的优势。可以看到,相比基线模型,PRNet的热力图(Heatmaps)更聚焦于小而密集的物体区域,最终的检测结果也更精确,漏检和误检都更少。

    打开网易新闻 查看精彩图片
    打开网易新闻 查看精彩图片

    消融实验进一步证实了PRN和ESSamp两个模块的有效性。单独加入PRN就能带来 7.1% 的AP提升,而两者结合使用时效果最佳,证明了它们之间存在良好的协同作用。实验还探讨了PRN的迭代次数和ESSamp的深度乘子等超参数,为实现最佳性能提供了依据。

    总结

    CV君觉得,PRNet提出的“捍卫原始信息”的理念,为解决小目标检测中的信息丢失问题提供了一个非常清晰且有效的思路。从信息传递的源头和过程入手,通过巧妙的结构设计实现了“开源”和“节流”,最终在精度和效率上都取得了令人信服的结果。

    大家对这个“返璞归真”的思路怎么看?欢迎在评论区留下你的看法!