目标检测准确率冲到95%以上时,小目标检测的mAP(平均精度均值)还在60%附近打转。这不是技术偷懒,是像素层面的捉迷藏——一个远处行人只占16×16像素,还没你微信头像的缩略图大。

为什么小目标成了AI的"视力死角"

为什么小目标成了AI的"视力死角"

小目标检测难,难在信息熵的断崖式下跌。一张1080p图像里,一个32×32像素的目标只占全图的0.05%。卷积神经网络每下采样一次,特征图就薄一层,等到算法"看见"它,已经糊成马赛克了。

自动驾驶场景最典型。特斯拉2023年披露的碰撞事故中,34%涉及远距离小型障碍物——锥桶、倒地自行车、静止动物。这些目标在感知层出现时,留给决策系统的时间窗口不到2秒。

医学影像领域更致命。早期肺结节直径常小于6mm,在CT切片上不过3-5像素。漏检率每降1%,临床获益人群就多出数万。但放射科医师肉眼读片的疲劳阈值,正好是AI可以补位的缝隙。

现有解法:在像素和算力之间走钢丝

现有解法:在像素和算力之间走钢丝

当前主流路线分两支。一支做"放大镜"——超分辨率重建,把16×16强行拉到64×64再检测。代价是显存爆炸,实时性归零,车载芯片直接罢工。

另一支玩"特征拼图"。FPN(特征金字塔网络)把深层语义和浅层位置信息勾兑,像把远景和近景镜头叠在一起。YOLOv8的小目标头(Small Object Head)专门给浅层特征开绿色通道,COCO数据集上小目标AP提升了12.7%。

但这类改进有个尴尬规律:论文里好看,落地时缩水。学术数据集的小目标定义是32×32以下,工业现场要处理的是8×8以下的焊点缺陷——差了16倍像素,方法论得推倒重来。

下一步往哪走

下一步往哪走

2024年CVPR(计算机视觉与模式识别会议)上,多帧融合和事件相机(Event Camera)成了新宠。后者不拍"照片"而拍"变化",时间分辨率微秒级,理论上能捕捉传统相机丢掉的瞬态小目标。

更激进的思路是放弃"检测"范式。华为诺亚方舟实验室在预印本中提出,直接把目标存在性建模为概率分布,用神经辐射场(NeRF)从多视角重建中"猜"出被遮挡的小目标。验证阶段,远距离车辆检测召回率提升了19%。

这引出一个开放问题:当小目标小到只剩几个像素,它究竟是"被检测的对象",还是"需要被推理的线索"?如果AI的终极视力取决于算力堆叠,那么资源受限的边缘设备,是否注定要在安全性和实时性之间二选一?