STAIR-DETR：无人机小目标检测的 Transformer 创新方案，精度与实时性双突破|50|人工智能模型|基线|尺度|无人机|算法

来源：市场资讯

（来源：计算机视觉研究院）

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

https://pmc.ncbi.nlm.nih.gov/articles/PMC12737161/pdf/sensors-25-07681.pdf

计算机视觉研究院专栏

Column of Computer Vision Institute

本文提出的STAIR-DETR—— 基于 RT-DETR 优化的协同 Transformer 检测框架，通过特征提取、分辨率转换、检测头设计的全链路升级，实现无人机小目标检测精度与实时推理效率双重突破。

PART/1

技术痛点

无人机航拍的特殊性带来多重检测挑战：目标像素占比极低（通常 < 32×32），特征信息匮乏；航拍背景复杂，目标与背景对比度低，误检漏检率高；运动模糊、透视畸变叠加光照噪声，进一步提升检测难度。

现有算法均存在明显短板：手工特征法鲁棒性不足，两阶段深度学习算法计算开销大，单阶段算法对小目标适配性差；主流 Transformer-based 模型（如 DETR、RT-DETR）存在细粒度特征建模不足、尺度转换信息丢失、浅层高分辨率特征利用不充分等问题，难以满足实际检测需求。

为此，团队以 RT-DETR 为基线，提出 STAIR-DETR 框架，通过四大核心创新，系统性解决特征表达、尺度转换、背景抑制等关键问题。

PART/2

核心架构

STAIR-DETR 为端到端协同检测框架，围绕骨干网络、特征融合、尺度转换、检测头四大核心环节创新优化，实现从特征提取到最终预测的信息高效流转，整体架构简洁且性能优异。

【STAIR-DETR 整体架构图】

1. DSEB 模块：增强骨干网络，语义与空间精度双保障

替换传统固定拓扑的 BasicBlock 残差模块，设计可重参数化的多样化语义增强块（DSEB），通过 5 条并行分支实现多感受野特征提取，兼顾核心特征捕捉、细粒度细节建模与感受野扩展。训练完成后 DSEB 可重参数化为单个 3×3 卷积，在不增加推理开销的前提下，大幅提升特征表达能力，精准捕捉无人机小目标的微弱局部特征。

【DSEB 模块结构图】

2. SFA 模块：轻量化统计注意力，精准抑制背景干扰

将 RT-DETR 中局部卷积主导的 AIFI 模块，替换为统计特征注意力（SFA）模块，集成于 neck 层多尺度融合阶段。SFA 通过「统计令牌提取 - 变分注意力估计 - 特征重加权」三阶段，基于特征均值、方差等统计信息构建轻量化全局注意力，无需构建 n×n 相似度矩阵，计算复杂度从 O (n²d) 降至 O (pn)，在实现全局上下文建模的同时，有效抑制复杂背景干扰，提升模型对小目标的敏感度。

3. ASTO 算子：自适应尺度转换，实现跨尺度特征无损传输

针对传统 FPN 固定采样操作导致的细节丢失、特征模糊问题，提出自适应尺度转换算子（ASTO），融合上下文引导下采样（CGD）与动态采样（DySample）：自底向下用 CGD 选择性放大目标特征后压缩，自顶向下用 DySample 动态调整采样点还原小目标边缘结构，实现跨尺度的上下文感知压缩与内容自适应重建，从根本上解决尺度转换的信息丢失问题。

【特征融合块架构图】

【DySample 架构图】

4. P2 检测头：新增高分辨率分支，专攻超小目标检测

针对原始 RT-DETR 忽略 P2 浅层高分辨率特征的缺陷，在 Transformer 解码器中新增 P2 检测头，与 P3-P5 分支并行且共享解码器层，充分挖掘浅层特征的细节信息，实现 16×16 像素以下超小目标的精准分类与定位，形成多尺度全覆盖的检测体系。

【RT-DETR 与 STAIR-DETR 检测头对比图】

PART/3

实验

以 RT-DETR-r18 为基线，在VisDrone2019（无人机航拍基准集）开展主实验，在DOTA-v1.0（航空遥感集）做跨数据集验证，实验基于 NVIDIA RTX 4080 Super GPU，采用 AdamW 优化器、余弦退火调度器，训练 200 个 epoch，从消融、对比、可视化三方面验证模型性能。

1. 消融实验：各模块贡献显著，协同优化效果最佳

实验结果表明，四大核心模块均为精度提升关键，协同集成时实现最优性能，模型参数与计算量增幅可控，兼顾实时性。

【消融实验对比结果表】

单独引入 DSEB，mAP@50 从 36.2% 提升至 38.0%；叠加 SFA 后进一步提升至 39.8%；
新增 P2 检测头，mAP@50 突破 40.2%；集成 ASTO 后，最终实现41.7% mAP@50、23.4% mAP@50:95；
模型参数仅 21.2M（较基线增 5.4%），计算量 86.6 GFLOPs，保持 40.2 FPS 实时推理效率。

2. 对比实验：超越主流 SOTA，多尺度检测能力突出

在 VisDrone2019 测试集与两阶段、单阶段、端到端等主流算法对比，STAIR-DETR 精度优势显著，且跨数据集泛化能力强。

【VisDrone 数据集 SOTA 模型对比结果表】

【DOTA 与 VisDrone 数据集多尺度检测对比表】

较基线 RT-DETR-r18，mAP@50 提升 4.9 个百分点，mAP@50:95 提升 2.7 个百分点，超越 DFS-DETR、VRF-DETR 等最优端到端算法；
DOTA-v1.0 验证集上实现 69.7% mAP@50，小 / 中 / 大目标精度分别提升 7.1%、12.3%、8.9%，对中小尺度目标提升尤为显著。

3. 可视化分析：复杂场景鲁棒性强，注意力精准聚焦目标

在夜间、密集遮挡、高空远距离、复杂地理背景等典型复杂场景下，STAIR-DETR 漏检、误检率显著低于基线模型，能精准识别行人、车辆等小目标；GradCAM++ 热力图显示，模型注意力更聚焦目标区域，有效过滤背景噪声，验证了各模块的背景抑制与目标特征增强效果。