小目标检测：AI视力表上那行没人看清的小字

薛定谔的BUG

2026-04-10 10:52 ·北京

目标检测准确率冲到95%以上时，小目标检测的mAP（平均精度均值）还在60%附近打转。这不是技术偷懒，是像素层面的捉迷藏——一个远处行人只占16×16像素，还没你微信头像的缩略图大。

为什么小目标成了AI的"视力死角"

为什么小目标成了AI的"视力死角"

小目标检测难，难在信息熵的断崖式下跌。一张1080p图像里，一个32×32像素的目标只占全图的0.05%。卷积神经网络每下采样一次，特征图就薄一层，等到算法"看见"它，已经糊成马赛克了。

自动驾驶场景最典型。特斯拉2023年披露的碰撞事故中，34%涉及远距离小型障碍物——锥桶、倒地自行车、静止动物。这些目标在感知层出现时，留给决策系统的时间窗口不到2秒。

医学影像领域更致命。早期肺结节直径常小于6mm，在CT切片上不过3-5像素。漏检率每降1%，临床获益人群就多出数万。但放射科医师肉眼读片的疲劳阈值，正好是AI可以补位的缝隙。

现有解法：在像素和算力之间走钢丝

现有解法：在像素和算力之间走钢丝

当前主流路线分两支。一支做"放大镜"——超分辨率重建，把16×16强行拉到64×64再检测。代价是显存爆炸，实时性归零，车载芯片直接罢工。

另一支玩"特征拼图"。FPN（特征金字塔网络）把深层语义和浅层位置信息勾兑，像把远景和近景镜头叠在一起。YOLOv8的小目标头（Small Object Head）专门给浅层特征开绿色通道，COCO数据集上小目标AP提升了12.7%。

但这类改进有个尴尬规律：论文里好看，落地时缩水。学术数据集的小目标定义是32×32以下，工业现场要处理的是8×8以下的焊点缺陷——差了16倍像素，方法论得推倒重来。

下一步往哪走

下一步往哪走

2024年CVPR（计算机视觉与模式识别会议）上，多帧融合和事件相机（Event Camera）成了新宠。后者不拍"照片"而拍"变化"，时间分辨率微秒级，理论上能捕捉传统相机丢掉的瞬态小目标。

更激进的思路是放弃"检测"范式。华为诺亚方舟实验室在预印本中提出，直接把目标存在性建模为概率分布，用神经辐射场（NeRF）从多视角重建中"猜"出被遮挡的小目标。验证阶段，远距离车辆检测召回率提升了19%。

这引出一个开放问题：当小目标小到只剩几个像素，它究竟是"被检测的对象"，还是"需要被推理的线索"？如果AI的终极视力取决于算力堆叠，那么资源受限的边缘设备，是否注定要在安全性和实时性之间二选一？

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴