自动驾驶的摄像头里,100米外的行人只占16×16像素——比微信头像的缩略图还小。2023年COCO数据集基准测试显示,小目标检测的平均精度(mAP)比常规目标低37个百分点。这不是算法偷懒,是物理极限在作祟。

小目标的定义本身就很刁钻:在640×480的图像中,宽高小于32像素的物体就算"小"。换算到4K视频里,这个阈值可能只有原图的0.05%。更麻烦的是,这类目标往往伴随着低分辨率、遮挡、噪声三重debuff。医学影像中的早期肺结节、卫星图里的非法渔船、工厂流水线上的微裂纹,都卡在这个技术死结上。

特征消失的数学诅咒

特征消失的数学诅咒

卷积神经网络(CNN)每下采样一次,特征图就缩一半。经过4次池化后,原图里32×32的目标只剩2×2——连卷积核都铺不满。ResNet-50的最后一个特征层,单个神经元对应的感受野是483×483像素,相当于用渔网捞细菌。

特征金字塔网络(FPN)试图解决这个问题,把浅层细节和深层语义拼接。但浅层特征的语义太弱,深层特征的位置又太糙。2022年AAAI的一篇论文指出,FPN对小目标的提升有限,因为不同层之间的语义鸿沟比想象中更深。

数据增强是另一条路。复制-粘贴小目标到随机位置、Mosaic拼接四张图、随机缩放……这些方法把COCO小目标AP拉高了2-3个点。但增强过头会引入虚假纹理,模型学到的可能是"伪影检测"而非"目标检测"。

超分重建的迂回战术

超分重建的迂回战术

有人换个思路:既然看不清,就先放大。生成对抗网络(GAN)和扩散模型被用来超分辨率重建小目标区域,再喂给检测器。2021年的一项研究显示,这种"先超分后检测"的流水线在遥感图像上把召回率提了11%。

代价是计算量翻倍。超分模型本身就需要GPU推理,实时性直接崩盘。自动驾驶场景里,30ms的延迟可能意味着3米的刹车距离——够撞上一辆突然变道的摩托车。

更隐蔽的问题是域偏移。超分模型在高清人脸数据集上训练,用到红外夜视场景里,重建出的"高清细节"可能是幻觉。军事侦察中,把石头超分成坦克的代价,比漏检更高。

Transformer的降维打击

Transformer的降维打击

ViT(视觉Transformer)把图像切成patch,用自注意力机制全局建模。对小目标来说,这意味着16×16的patch可能刚好包住一个目标,避免了CNN层层下采样的信息损耗。

2023年的DETR变体Deformable DETR,用可变形注意力聚焦稀疏位置,计算效率追上YOLO。在VisDrone无人机数据集上,它对20×20以下目标的检测精度比Faster R-CNN高19%。

但Transformer的预训练需要海量数据。医学小目标检测的标注成本极高——一个放射科医生标注一张CT的肺结节需要20分钟,而训练ViT需要百万级样本。小数据场景下,CNN+传统增强仍是更务实的选择。

多模态的作弊码

多模态的作弊码

激光雷达(LiDAR)和毫米波雷达给视觉打补丁。点云没有"分辨率"概念,100米外的行人反射几十个点,足够定位。2023年特斯拉的Occupancy Network,把视觉和雷达特征统一到3D体素空间,理论上消除了"小目标"问题——因为一切都被还原到物理尺度。

多模态的坑在于传感器同步和标定。摄像头60fps,激光雷达10Hz,时间差50ms,高速场景里目标已经位移了1.4米。融合算法的复杂度,让量产车型的算力预算频频告急。

一位自动驾驶算法工程师在知乎写道:「我们现在对小目标的策略是'宁可错杀'——提高召回率,用跟踪算法滤除抖动假阳性。精度换安全,这是工程上的妥协。」

小目标检测的终极解法,会不会是抛弃"检测"这个范式本身?端到端的世界模型直接预测"这里有个危险物体",而不需要画框分类——就像人类余光瞥见异动,根本来不及数像素。