一张普通照片,AI能认出里面的沙发、茶几、吊灯。但让它告诉你"吊灯距离茶几多远""沙发背靠哪面墙",它就懵了。
这不是模型不够聪明。这是整个计算机视觉领域都在"扁平世界"里打转——像素级智能和三维空间理解之间,隔着一道至今没人完全跨过去的沟。
几何重建早已解决,语义标注才是卡脖子环节
从照片里重建3D结构,二十年前就有成熟方案。Structure-from-Motion(运动恢复结构)算法通过匹配特征点、三角化定位,能把一堆照片变成点云。Depth-Anything-3这类单目深度估计模型,更是让一部手机就能生成密集点云。
但点云本身毫无意义。80万个点摆在那里,你问它"墙在哪",它沉默;"地板面积多大",它沉默;"窗户和天花板的交界线在哪",它还是沉默。
Florent Poux在文中打了个比方:纯几何是"哑巴建筑师",能画图不会说话。自动驾驶、仓储机器人、建筑数字孪生——这些真正值钱的应用,都需要"会说话"的3D理解。
三层AI叠加:从像素到空间的跃迁
当前有三股技术流正在汇合,试图填平这道沟。
第一层是深度估计。Depth-Anything-3这类基础模型,给每个像素贴上"离相机多远"的标签。单张照片就能出深度图,不再需要激光雷达或双目相机。
第二层是基础分割。Segment Anything Model(SAM,分割一切模型)及其变体,能把照片里的物体一块块切分出来——沙发归沙发,人归人,阴影归阴影。
第三层才是关键,也是最少被讨论的:几何融合(Geometric Fusion)。这层不生成新预测,而是把前两层的2D预测"翻译"成一致的3D语义。同一面墙在20张照片里被识别成20个不同片段?几何融合把它们缝合回同一实体。
Poux把这套流程画成一张图:单张照片进去,先过深度层,再过分割层,最后几何融合层把碎片拼成"深度感知、语义标注的3D场景"。
3.5倍标签放大:小样本如何撬动大覆盖
几何融合的真正价值在数据效率上爆发。
传统3D标注依赖人工在点云上逐点标记,成本极高。新流程反着来:在2D照片上标注,再通过几何融合投影回3D空间。Poux给出的生产数据是:20%的原始标注覆盖率,经几何融合后扩展到78%——标签放大系数3.5倍。
这背后的机制是多视角一致性约束。一张沙发正面照标了"沙发",侧面照没标,但几何融合知道这两张照片里的点云块是同一物体,于是把标签"传染"过去。
换句话说,AI在用空间几何做"标签的复利投资"。
为什么机器人还是撞墙?
三层架构听起来完美,落地仍有裂缝。
深度估计在纹理重复区域(白墙、玻璃)会失效;基础分割对细长物体(桌腿、电线)边界模糊;几何融合最头疼动态场景——人走过去了,留下的点云 ghost(残影)该归哪一类?
Poux的观察是:当前系统更适合静态环境扫描(建筑测绘、室内建模),而非实时导航。自动驾驶公司用激光雷达,不是因为视觉方案理论上不行,而是几何融合的延迟和不确定性,目前还过不了安全冗余的门槛。
但成本曲线在动。一颗激光雷达几千美元,一部手机加算法接近零边际成本。当几何融合的可靠性从78%爬到95%,行业切换的临界点就到了。
那个临界点,你觉得还需要几年?
热门跟贴