小目标检测：AI在16×16像素里找人的魔幻现实

薛定谔的BUG

2026-04-11 10:35 ·北京

自动驾驶的摄像头里，100米外的行人只占16×16像素——比微信头像的缩略图还小。2023年COCO数据集基准测试显示，小目标检测的平均精度（mAP）比常规目标低37个百分点。这不是算法偷懒，是物理极限在作祟。

小目标的定义本身就很刁钻：在640×480的图像中，宽高小于32像素的物体就算"小"。换算到4K视频里，这个阈值可能只有原图的0.05%。更麻烦的是，这类目标往往伴随着低分辨率、遮挡、噪声三重debuff。医学影像中的早期肺结节、卫星图里的非法渔船、工厂流水线上的微裂纹，都卡在这个技术死结上。

特征消失的数学诅咒

特征消失的数学诅咒

卷积神经网络（CNN）每下采样一次，特征图就缩一半。经过4次池化后，原图里32×32的目标只剩2×2——连卷积核都铺不满。ResNet-50的最后一个特征层，单个神经元对应的感受野是483×483像素，相当于用渔网捞细菌。

特征金字塔网络（FPN）试图解决这个问题，把浅层细节和深层语义拼接。但浅层特征的语义太弱，深层特征的位置又太糙。2022年AAAI的一篇论文指出，FPN对小目标的提升有限，因为不同层之间的语义鸿沟比想象中更深。

数据增强是另一条路。复制-粘贴小目标到随机位置、Mosaic拼接四张图、随机缩放……这些方法把COCO小目标AP拉高了2-3个点。但增强过头会引入虚假纹理，模型学到的可能是"伪影检测"而非"目标检测"。

超分重建的迂回战术

超分重建的迂回战术

有人换个思路：既然看不清，就先放大。生成对抗网络（GAN）和扩散模型被用来超分辨率重建小目标区域，再喂给检测器。2021年的一项研究显示，这种"先超分后检测"的流水线在遥感图像上把召回率提了11%。

代价是计算量翻倍。超分模型本身就需要GPU推理，实时性直接崩盘。自动驾驶场景里，30ms的延迟可能意味着3米的刹车距离——够撞上一辆突然变道的摩托车。

更隐蔽的问题是域偏移。超分模型在高清人脸数据集上训练，用到红外夜视场景里，重建出的"高清细节"可能是幻觉。军事侦察中，把石头超分成坦克的代价，比漏检更高。

Transformer的降维打击

Transformer的降维打击

ViT（视觉Transformer）把图像切成patch，用自注意力机制全局建模。对小目标来说，这意味着16×16的patch可能刚好包住一个目标，避免了CNN层层下采样的信息损耗。

2023年的DETR变体Deformable DETR，用可变形注意力聚焦稀疏位置，计算效率追上YOLO。在VisDrone无人机数据集上，它对20×20以下目标的检测精度比Faster R-CNN高19%。

但Transformer的预训练需要海量数据。医学小目标检测的标注成本极高——一个放射科医生标注一张CT的肺结节需要20分钟，而训练ViT需要百万级样本。小数据场景下，CNN+传统增强仍是更务实的选择。

多模态的作弊码

多模态的作弊码

激光雷达（LiDAR）和毫米波雷达给视觉打补丁。点云没有"分辨率"概念，100米外的行人反射几十个点，足够定位。2023年特斯拉的Occupancy Network，把视觉和雷达特征统一到3D体素空间，理论上消除了"小目标"问题——因为一切都被还原到物理尺度。

多模态的坑在于传感器同步和标定。摄像头60fps，激光雷达10Hz，时间差50ms，高速场景里目标已经位移了1.4米。融合算法的复杂度，让量产车型的算力预算频频告急。

一位自动驾驶算法工程师在知乎写道：「我们现在对小目标的策略是'宁可错杀'——提高召回率，用跟踪算法滤除抖动假阳性。精度换安全，这是工程上的妥协。」

小目标检测的终极解法，会不会是抛弃"检测"这个范式本身？端到端的世界模型直接预测"这里有个危险物体"，而不需要画框分类——就像人类余光瞥见异动，根本来不及数像素。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴