打开网易新闻 查看精彩图片
人类看这张图,只会说"一只猫在沙发上"。谷歌DeepMind的新模型盯着同一张图,报出了37个物体——包括沙发扶手上那道几乎隐形的抓痕,和窗帘缝隙里透出的另一栋楼的轮廓。
团队管这叫"超人类视觉智能"。不是比喻,是字面意思:模型在多项视觉任务上的表现,已经超出了人类标注员的平均水平。换句话说,它发现了人类没教过它要去找的东西。
项目负责人Diane Bouchacourt在论文里写了一句很平淡的话,反而成了关键线索:「模型学会了预测人类会忽略哪些区域。」
这行字背后是个微妙转向。以前做视觉AI,目标都是"像人一样看";现在谷歌直接把人类当成了需要绕过的瓶颈。训练数据里混了大量非人类视角的标注——热成像、声呐图、甚至卫星多光谱数据。模型被迫学会了一种不依赖人类经验的"看"。
一个细节:在测试集里,模型识别出的物体中,有12%是人类标注员完全没标记的。团队回溯检查,发现其中大部分确实存在,只是太隐蔽或太边缘,人眼扫过去就过滤掉了。
有研究员在Hacker News评论说,这让他想起早期AlphaGo的某一手棋——当时人类棋手以为是失误,事后复盘才发现是超越时代的妙着。现在的问题是,当AI的"看见"和人类不再重叠,我们该信谁的眼睛?
热门跟贴