来源:市场资讯
(来源:计算机视觉研究院)
计算机视觉研究院
公众号ID|计算机视觉研究院
学习群|扫码在主页获取加入方式
https://pmc.ncbi.nlm.nih.gov/articles/PMC12808633/pdf/41598_2025_Article_31803.pdf
计算机视觉研究院专栏
Column of Computer Vision Institute
无人机航拍影像的目标检测,一直被极小目标卡脖子。当目标尺寸小于 3-5 像素时,传统 YOLO 模型直接 “失效”,特征丢失、漏检率高、算力不兼容…… 本文提出基于 YOLOv12 的高效检测框架,彻底破解这一难题!
PART/1
痛点
无人机检测:卡在极小目标的行业痛点
无人机在安防、农业、救灾、交通监测中广泛应用,但航拍视角下的目标极小、密集、背景复杂,成为检测核心瓶颈:
极小目标仅占 3 像素内,纹理、边缘特征几乎消失;
深度卷积下采样易丢失细粒度空间信息;
轻量化与高精度难以兼顾,无法适配无人机边缘实时部署;
多尺度特征融合不足,小目标极易被背景淹没。
传统 YOLOv3/v5/v8/v9 等模型,面对这类超小目标,检测精度大幅下滑,难以满足实际场景需求。
PART/2
创新
四大创新模块:重构 YOLOv12 检测核心
本次研究对 YOLOv12 进行全方位升级,通过 4 大核心模块,实现轻量计算 + 精细特征 + 精准检测的平衡。
模型层架构图
- C3K2 轻量骨干模块
替换传统 3×3 卷积为 2×2 卷积,大幅降低参数量与计算量,同时保留细粒度空间特征,解决卷积冗余问题。
- A2C2F 区域注意力模块
融合多头 MLP 与局部区域注意力,聚焦极小目标的局部空间依赖,摒弃全局注意力的高算力消耗,强化弱目标特征、抑制背景噪声。
- 多尺度特征融合策略
堆叠 A2C2F 模块 + 拼接 (Concat)+ 上采样 (Upsample),保留高分辨率特征,让小目标不丢失、不模糊。
- 解耦检测头
分类、回归分支分离,搭配注意力引导特征融合,提升预测一致性与推理速度。
PART/3
实验
硬核实验:VisDrone 数据集刷新 SOTA
研究选用无人机检测权威数据集VisDrone验证效果,该数据集含超 5 万个小于 3 像素的极小目标,极具挑战性。
与现有模型性能对比表
消融实验结果表
核心性能指标
精度:Precision=69.1%,Recall=48.5%,F1=56.99%
检测率:mAP@50=58.8%,mAP@0.5:0.95=40.9%
速度:A100 GPU 上达40 FPS,支持实时部署
算力:参数量 59.1M,GFLOPs=198.6,轻量高效
训练 / 验证损失曲线
归一化混淆矩阵
<3 像素极小目标专项测试结果
实验证明:该模型对小于 3 像素的超小目标检测能力,远超 YOLOv8、YOLOv9 及各类 Transformer 检测模型,是当前无人机极小目标检测的最优方案。
PART/4
落地价值
落地价值:赋能无人机全场景应用
这款 YOLOv12 改进框架,完美平衡高精度 + 轻量性 + 实时性,可直接部署于无人机边缘设备,覆盖多元场景:
城市安防:密集人流、极小车辆精准识别;
农业监测:作物病虫害、小型植株精细化检测;
灾害救援:废墟中极小生命体征、小型障碍物定位;
交通管控:航拍视角下微型非机动车、行人无漏检。
PART/5
总结
本次研究以 YOLOv12 为基座,通过 C3K2、A2C2F 等创新设计,攻克了无人机航拍3 像素级极小目标检测的行业难题,在精度、速度、轻量化上实现全面突破,为无人机视觉感知提供了全新技术方案。
有相关需求的你可以联系我们!
热门跟贴