来源:市场资讯

(来源:计算机视觉研究院)

计算机视觉研究院

打开网易新闻 查看精彩图片

公众号ID|计算机视觉研究院

学习群|扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12397394/pdf/41598_2025_Article_16878.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文基于 YOLOv8 提出了一套专为无人机小目标检测设计的轻量化方案 ——BPD-YOLO。它通过重构特征金字塔网络,在 VisDrone 数据集上实现了mAP50 提升 2.8%,同时参数量从 2.92M 砍到 1.50M,真正做到了又轻又准。

PART/1

痛点

无人机航拍图像分辨率高、细节多,但小目标占比极高,检测难度远大于普通场景,核心有三大痛点:

:小目标仅占几个像素,极易和背景混淆,漏检率高;

:人群、车流密集排布,相互遮挡容易造成误检;

:同一张图里大小目标并存,普通模型很难兼顾。

【不同数据集的大 / 中 / 小 / 极小目标分布对比表】
打开网易新闻 查看精彩图片
【不同数据集的大 / 中 / 小 / 极小目标分布对比表】

从数据分布就能直观看到:普通数据集中大目标占比超 68%,而无人机专用数据集里,极小 + 小目标占比超过 68%,TinyPerson 数据集更是 80% 以上都是极小目标。

传统的 FPN 特征金字塔虽然能融合深浅层特征,但存在两个硬伤:一是深层大量堆叠残差块,计算冗余严重;二是深浅层直接融合存在 “语义鸿沟”,深层抽象语义会冲散浅层细节,反而拖累小目标检测效果。

PART/2

创新

针对上述问题,团队设计了全新的L-FPN(轻量化特征金字塔网络),替代 YOLOv8 原生的 FPN+PANet 结构,以此为基础打造了 BPD-YOLO 检测器。

【BPD-YOLO 整体网络架构图】
打开网易新闻 查看精彩图片
【BPD-YOLO 整体网络架构图】

整个方案围绕 “浅层保细节、深层做融合、减参不减效” 的思路,核心包含四大关键设计:

1. 双阶段渐进特征融合机制(DAFF)

不同于 AFPN 把浅层细节往深层传的思路,L-FPN 反向优化信息流,让深层语义高效流向浅层,专门服务小目标检测。

  • 第一阶段:并行融合深浅层特征,先生成中间语义层,缩小语义鸿沟;

  • 第二阶段:渐进式整合中间层特征,逐步把深层语义注入浅层;

  • 连接策略:深层稀疏连接、浅层密集连接,把计算资源集中在对小目标更重要的高分辨率浅层上。

【AFPN 与 L-FPN 结构对比示意图】
打开网易新闻 查看精彩图片
【AFPN 与 L-FPN 结构对比示意图】

2. 深度空间金字塔融合模块(DSPF)

用 DSPF 替代深层的残差块,专门负责语义融合,大幅降低计算量:

  • 用深度可分离空洞卷积替代传统池化,在不增加参数量的前提下扩大感受野;

  • 采用 1/2/3 渐进式膨胀率,兼顾局部细节与全局上下文,避免小目标信息丢失;

  • 相比残差块,减少了大量通道交互,专注多尺度语义整合,更适配小目标检测。

【L-FPN 详细架构图(含 DSPF 模块内部结构)】
打开网易新闻 查看精彩图片
【L-FPN 详细架构图(含 DSPF 模块内部结构)】

3. 解耦式特征提取 - 语义整合机制(DEI)

把 “特征提取” 和 “语义融合” 拆解开,分层执行:

  • 浅层特征层:保留传统残差块,充分提取小目标的细节与位置信息;

  • 深层特征层:替换为 DSPF 模块,只负责高效语义融合与多尺度表征;

  • 避免了深层残差块的计算浪费,同时减少深层特征对浅层细节的干扰。

4. 轻量化动态上采样 DySample

替换传统的双线性 / 最近邻上采样,采用 DySample 动态调整采样点位置:

  • 根据特征内容自适应调整上采样权重,让模型更聚焦目标区域,减少背景干扰;

  • 上采样精度媲美 CARAFE,但参数量和计算量更低,和 L-FPN 适配性极强。

【DySample 模块结构示意图】
打开网易新闻 查看精彩图片
【DySample 模块结构示意图】

PART/3

实验

团队在无人机检测经典数据集 VisDrone2019 和极小目标数据集 TinyPerson 上做了全面实验,基线为 YOLOv8n+P2。

1. VisDrone 数据集:全面超越基线与同类方案

【VisDrone2019 数据集各模型性能对比表】
打开网易新闻 查看精彩图片
【VisDrone2019 数据集各模型性能对比表】

核心数据亮点:

  • 对比基线 YOLOv8n+P2:mAP50 从 35.3% 提升至 38.1%(+2.8%),mAP50-95 提升 1.4%,同时 GFLOPs 从 12.2 降到 11.4,参数量从 2.92M 降至 1.50M(减幅近 50%);

  • 对比 YOLOv8s:BPD-YOLOn 计算量降低 60%,精度基本持平;同计算量下,BPD-YOLOs 比 YOLOv8s+P2 的 mAP50 高出 2.1%;

  • 对比 BiFPN、AFPN 等经典改进 FPN:在精度相当或更优的前提下,参数量和计算量大幅降低。

可视化效果上,BPD-YOLO 显著减少了密集人群、远处小目标的漏检,对遮挡目标的识别也更准确。

【VisDrone 测试集检测效果与热力图对比】
打开网易新闻 查看精彩图片
【VisDrone 测试集检测效果与热力图对比】
【基线与 BPD-YOLO 的归一化混淆矩阵对比】
打开网易新闻 查看精彩图片
【基线与 BPD-YOLO 的归一化混淆矩阵对比】

2. TinyPerson 数据集:极端小目标场景依然能打

TinyPerson 的目标尺寸仅 2-20 像素,是极小目标检测的试金石。

【TinyPerson 数据集实验结果表】
打开网易新闻 查看精彩图片
【TinyPerson 数据集实验结果表】

相比基线,BPD-YOLO 在参数量和计算量双降的前提下,mAP50 提升 1.1%,密集人群的漏检大幅减少,复杂背景下的误检也显著降低。

【TinyPerson 数据集检测效果可视化对比】
打开网易新闻 查看精彩图片
【TinyPerson 数据集检测效果可视化对比】

此外团队还验证了 L-FPN 的泛化性:搭配 YOLOv5、YOLOv10 以及 FasterNet、MobileNetV4 等多种骨干网络,均能稳定涨点并降低计算量,适配性极强。

PART/4

落地

BPD-YOLO 的核心贡献可以概括为三点:

提出 DAFF 双阶段渐进融合与 DEI 解耦机制,高效弥合深浅层语义鸿沟;

设计 DSPF 轻量化模块,替代深层残差块,实现减参增效;

构建 L-FPN 特征金字塔,打造出专为无人机视角优化的 BPD-YOLO 检测器。

这套方案在保证检测精度的同时大幅压缩了模型体积,非常适合无人机、嵌入式等资源受限的边缘场景落地。团队表示,后续会继续优化轻量化设计,进一步平衡推理速度与检测精度。

有相关需求的你可以联系我们!