来源:市场资讯

(来源:计算机视觉研究院)

计算机视觉研究院

打开网易新闻 查看精彩图片

公众号ID|计算机视觉研究院

学习群|扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12737161/pdf/sensors-25-07681.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文提出的STAIR-DETR—— 基于 RT-DETR 优化的协同 Transformer 检测框架,通过特征提取、分辨率转换、检测头设计的全链路升级,实现无人机小目标检测精度与实时推理效率双重突破。

PART/1

技术痛点

无人机航拍的特殊性带来多重检测挑战:目标像素占比极低(通常 < 32×32),特征信息匮乏;航拍背景复杂,目标与背景对比度低,误检漏检率高;运动模糊、透视畸变叠加光照噪声,进一步提升检测难度。

现有算法均存在明显短板:手工特征法鲁棒性不足,两阶段深度学习算法计算开销大,单阶段算法对小目标适配性差;主流 Transformer-based 模型(如 DETR、RT-DETR)存在细粒度特征建模不足、尺度转换信息丢失、浅层高分辨率特征利用不充分等问题,难以满足实际检测需求。

为此,团队以 RT-DETR 为基线,提出 STAIR-DETR 框架,通过四大核心创新,系统性解决特征表达、尺度转换、背景抑制等关键问题。

PART/2

核心架构

STAIR-DETR 为端到端协同检测框架,围绕骨干网络、特征融合、尺度转换、检测头四大核心环节创新优化,实现从特征提取到最终预测的信息高效流转,整体架构简洁且性能优异。

打开网易新闻 查看精彩图片

【STAIR-DETR 整体架构图】

1. DSEB 模块:增强骨干网络,语义与空间精度双保障

替换传统固定拓扑的 BasicBlock 残差模块,设计可重参数化的多样化语义增强块(DSEB),通过 5 条并行分支实现多感受野特征提取,兼顾核心特征捕捉、细粒度细节建模与感受野扩展。训练完成后 DSEB 可重参数化为单个 3×3 卷积,在不增加推理开销的前提下,大幅提升特征表达能力,精准捕捉无人机小目标的微弱局部特征。

打开网易新闻 查看精彩图片

【DSEB 模块结构图】

2. SFA 模块:轻量化统计注意力,精准抑制背景干扰

将 RT-DETR 中局部卷积主导的 AIFI 模块,替换为 统计特征注意力(SFA)模块,集成于 neck 层多尺度融合阶段。SFA 通过「统计令牌提取 - 变分注意力估计 - 特征重加权」三阶段,基于特征均值、方差等统计信息构建轻量化全局注意力,无需构建 n×n 相似度矩阵,计算复杂度从 O (n²d) 降至 O (pn),在实现全局上下文建模的同时,有效抑制复杂背景干扰,提升模型对小目标的敏感度。

【SFA 机制示意图】
打开网易新闻 查看精彩图片
【SFA 机制示意图】

3. ASTO 算子:自适应尺度转换,实现跨尺度特征无损传输

针对传统 FPN 固定采样操作导致的细节丢失、特征模糊问题,提出自适应尺度转换算子(ASTO),融合上下文引导下采样(CGD)与动态采样(DySample):自底向下用 CGD 选择性放大目标特征后压缩,自顶向下用 DySample 动态调整采样点还原小目标边缘结构,实现跨尺度的上下文感知压缩与内容自适应重建,从根本上解决尺度转换的信息丢失问题。

打开网易新闻 查看精彩图片

【特征融合块架构图】

打开网易新闻 查看精彩图片

【DySample 架构图】

4. P2 检测头:新增高分辨率分支,专攻超小目标检测

针对原始 RT-DETR 忽略 P2 浅层高分辨率特征的缺陷,在 Transformer 解码器中新增 P2 检测头,与 P3-P5 分支并行且共享解码器层,充分挖掘浅层特征的细节信息,实现 16×16 像素以下超小目标的精准分类与定位,形成多尺度全覆盖的检测体系。

打开网易新闻 查看精彩图片

【RT-DETR 与 STAIR-DETR 检测头对比图】

PART/3

实验

以 RT-DETR-r18 为基线,在VisDrone2019(无人机航拍基准集)开展主实验,在DOTA-v1.0(航空遥感集)做跨数据集验证,实验基于 NVIDIA RTX 4080 Super GPU,采用 AdamW 优化器、余弦退火调度器,训练 200 个 epoch,从消融、对比、可视化三方面验证模型性能。

1. 消融实验:各模块贡献显著,协同优化效果最佳

实验结果表明,四大核心模块均为精度提升关键,协同集成时实现最优性能,模型参数与计算量增幅可控,兼顾实时性。

打开网易新闻 查看精彩图片

【消融实验对比结果表】

  • 单独引入 DSEB,mAP@50 从 36.2% 提升至 38.0%;叠加 SFA 后进一步提升至 39.8%;

  • 新增 P2 检测头,mAP@50 突破 40.2%;集成 ASTO 后,最终实现41.7% mAP@50、23.4% mAP@50:95;

  • 模型参数仅 21.2M(较基线增 5.4%),计算量 86.6 GFLOPs,保持 40.2 FPS 实时推理效率。

2. 对比实验:超越主流 SOTA,多尺度检测能力突出

在 VisDrone2019 测试集与两阶段、单阶段、端到端等主流算法对比,STAIR-DETR 精度优势显著,且跨数据集泛化能力强。

打开网易新闻 查看精彩图片

【VisDrone 数据集 SOTA 模型对比结果表】

打开网易新闻 查看精彩图片

【DOTA 与 VisDrone 数据集多尺度检测对比表】

  • 较基线 RT-DETR-r18,mAP@50 提升 4.9 个百分点,mAP@50:95 提升 2.7 个百分点,超越 DFS-DETR、VRF-DETR 等最优端到端算法;

  • DOTA-v1.0 验证集上实现 69.7% mAP@50,小 / 中 / 大目标精度分别提升 7.1%、12.3%、8.9%,对中小尺度目标提升尤为显著。

3. 可视化分析:复杂场景鲁棒性强,注意力精准聚焦目标

在夜间、密集遮挡、高空远距离、复杂地理背景等典型复杂场景下,STAIR-DETR 漏检、误检率显著低于基线模型,能精准识别行人、车辆等小目标;GradCAM++ 热力图显示,模型注意力更聚焦目标区域,有效过滤背景噪声,验证了各模块的背景抑制与目标特征增强效果。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

【不同复杂环境下 STAIR-DETR 检测效果可视化图】

打开网易新闻 查看精彩图片

【RT-DETR-r18 与 STAIR-DETR 检测结果对比图】

打开网易新闻 查看精彩图片

【RT-DETR-r18 与 STAIR-DETR 特征图热力图对比图】

PART/4

结果与展望

STAIR-DETR 通过 DSEB、SFA、ASTO 三大模块与 P2 检测头的协同优化,从四个维度系统性解决无人机小目标检测痛点,在 VisDrone2019 实现 SOTA 性能,且保持实时推理效率,验证了框架在复杂航拍场景的有效性与鲁棒性。

未来研究将围绕两大方向展开:一是通过量化、剪枝、知识蒸馏等模型压缩技术,降低计算开销,适配资源受限的无人机嵌入式平台,实现工程化部署;二是融合红外、LiDAR 等多模态数据,引入时间线索,提升模型在恶劣环境及动态航拍场景的检测能力,进一步拓展在低空经济、航空遥感、智能监控等领域的应用边界。

有相关需求的你可以联系我们!