来源:市场资讯

(来源:计算机视觉研究院)

计算机视觉研究院

打开网易新闻 查看精彩图片

公众号ID|计算机视觉研究院

学习群|扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12808633/pdf/41598_2025_Article_31803.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

无人机航拍影像的目标检测,一直被极小目标卡脖子。当目标尺寸小于 3-5 像素时,传统 YOLO 模型直接 “失效”,特征丢失、漏检率高、算力不兼容…… 本文提出基于 YOLOv12 的高效检测框架,彻底破解这一难题!

PART/1

痛点

无人机检测:卡在极小目标的行业痛点

无人机在安防、农业、救灾、交通监测中广泛应用,但航拍视角下的目标极小、密集、背景复杂,成为检测核心瓶颈:

  1. 极小目标仅占 3 像素内,纹理、边缘特征几乎消失;

  2. 深度卷积下采样易丢失细粒度空间信息;

  3. 轻量化与高精度难以兼顾,无法适配无人机边缘实时部署;

  4. 多尺度特征融合不足,小目标极易被背景淹没。

传统 YOLOv3/v5/v8/v9 等模型,面对这类超小目标,检测精度大幅下滑,难以满足实际场景需求。

打开网易新闻 查看精彩图片

PART/2

创新

四大创新模块:重构 YOLOv12 检测核心

本次研究对 YOLOv12 进行全方位升级,通过 4 大核心模块,实现轻量计算 + 精细特征 + 精准检测的平衡。

打开网易新闻 查看精彩图片

模型层架构图

  1. C3K2 轻量骨干模块

    替换传统 3×3 卷积为 2×2 卷积,大幅降低参数量与计算量,同时保留细粒度空间特征,解决卷积冗余问题。

  2. A2C2F 区域注意力模块

    融合多头 MLP 与局部区域注意力,聚焦极小目标的局部空间依赖,摒弃全局注意力的高算力消耗,强化弱目标特征、抑制背景噪声。

  3. 多尺度特征融合策略

    堆叠 A2C2F 模块 + 拼接 (Concat)+ 上采样 (Upsample),保留高分辨率特征,让小目标不丢失、不模糊。

  4. 解耦检测头

    分类、回归分支分离,搭配注意力引导特征融合,提升预测一致性与推理速度。

PART/3

实验

硬核实验:VisDrone 数据集刷新 SOTA

研究选用无人机检测权威数据集VisDrone验证效果,该数据集含超 5 万个小于 3 像素的极小目标,极具挑战性。

打开网易新闻 查看精彩图片

与现有模型性能对比表

打开网易新闻 查看精彩图片

消融实验结果表

核心性能指标

  • 精度:Precision=69.1%,Recall=48.5%,F1=56.99%

  • 检测率:mAP@50=58.8%,mAP@0.5:0.95=40.9%

  • 速度:A100 GPU 上达40 FPS,支持实时部署

  • 算力:参数量 59.1M,GFLOPs=198.6,轻量高效

打开网易新闻 查看精彩图片

训练 / 验证损失曲线

打开网易新闻 查看精彩图片

归一化混淆矩阵

打开网易新闻 查看精彩图片

<3 像素极小目标专项测试结果

实验证明:该模型对小于 3 像素的超小目标检测能力,远超 YOLOv8、YOLOv9 及各类 Transformer 检测模型,是当前无人机极小目标检测的最优方案。

PART/4

落地价值

落地价值:赋能无人机全场景应用

这款 YOLOv12 改进框架,完美平衡高精度 + 轻量性 + 实时性,可直接部署于无人机边缘设备,覆盖多元场景:

  1. 城市安防:密集人流、极小车辆精准识别;

  2. 农业监测:作物病虫害、小型植株精细化检测;

  3. 灾害救援:废墟中极小生命体征、小型障碍物定位;

  4. 交通管控:航拍视角下微型非机动车、行人无漏检。

打开网易新闻 查看精彩图片

PART/5

总结

本次研究以 YOLOv12 为基座,通过 C3K2、A2C2F 等创新设计,攻克了无人机航拍3 像素级极小目标检测的行业难题,在精度、速度、轻量化上实现全面突破,为无人机视觉感知提供了全新技术方案。

有相关需求的你可以联系我们!