最近Insta360研究团队拉着加州大学圣地亚哥分校、武汉大学这些名校,捣鼓出个叫DAP的新东西,全称DepthAnyPanoramas。

听名字挺玄乎,说白了就是让机器能把360度全景图的“深浅远近”看得明明白白,这事儿以前可没这么靠谱过。

咱们平时看全景图,知道哪儿是墙哪儿是窗,但机器不行,它得靠“深度估计”算出每个点离镜头多远。

打开网易新闻 查看精彩图片

这技术对机器人导航、自动驾驶、VR这些领域来说,简直是“眼睛”级别的存在。

可之前这“眼睛”总出问题,要么数据不够用,要么模型看啥都模糊。

搞不清为啥以前全景深度估计总卡壳?说白了就是数据太少,模型没见过世面。

以前学术界玩这个,手里就几万张标注好的全景图,跟抱着一小碗饭想喂饱壮汉似的,模型学出来能靠谱吗?

DAP团队一上来就瞄准了这个死穴。

打开网易新闻 查看精彩图片

他们觉得,数据量上不去,啥模型都白搭。

于是硬生生把数据量干到了200万量级,差不多是以前的100倍。

这里面既有Structured3D这类现成的“营养餐”,也有新找来的“家常菜”,反正就是要让模型见够世面。

数据多了,新问题又来了,200万张图里,190万张都没标过深度,总不能让人一张张画吧?人工标注一张全景深度图,成本比买个新手机还高。

DAP团队想了个巧招搞“三阶段伪标签精炼”,简单说就是让模型自己给自己出题、改作业。

打开网易新闻 查看精彩图片

第一阶段先拿少量精准的合成数据(比如Structured3D)当“教材”,让模型学明白“深度”到底是个啥物理概念,就像先教孩子认尺子上的刻度。

第二阶段换“练习题”,用190万张没标签的图让模型试着标深度,再用个“深度质量判别器”当“老师”,挑出60万张标得还行的,相当于从一堆草稿里选出能看的作业。

第三阶段把这些“精选作业”和原来的“教材”混在一起,让模型再学一遍,这下模型总算“吃饱喝足”,见过的场景多了,自然不容易犯迷糊。

打开网易新闻 查看精彩图片

光有数据还不够,模型本身也得聪明。

DAP用了个叫DINOv3的“大脑”当骨干,这玩意儿提取图像特征特别准,就像给模型配了个高清显微镜,远处的树叶纹理、家具边角都能看得清清楚楚。

最绝的是“动态距离掩码”这招。

全景图里近处的人和远处的山,深度差异能差几十倍,模型很容易顾此失彼。

DAP就给模型装了个“变焦眼镜”,看近处时聚焦细节,看远处时调整比例,不管多远多近,深度算得都靠谱。

打开网易新闻 查看精彩图片

测试的时候效果挺惊艳。

以前模型看远处的山,总像打了马赛克,天空还老被算成“离镜头很近”,闹笑话。

DAP出来后,山脉轮廓清清楚楚,天空也知道是“无限远”,复杂家具的纹理都能分毫不差。

有同行说,这相当于给全景深度估计装了个“矫正眼镜”,一下子不“散光”了。

这技术要是落地了,用处可大了去。

打开网易新闻 查看精彩图片

自动驾驶的摄像头能看得更广更准,以前转弯时看不到的盲区,现在360度全景深度一扫,哪有行人哪有障碍物,门儿清。

机器人进仓库搬东西,再也不会因为看不清货架深度撞翻箱子。

VR游戏里的场景也会更真实,你伸手去够虚拟桌子,距离感跟现实中一模一样,不会摸空。

更关键的是DAP团队把代码和模型全开源了。

现在项目页面已经上线,谁想用都能拿去改。

打开网易新闻 查看精彩图片

搞研究的不用再从零开始攒数据、搭模型,企业想做全景深度应用,直接拿过来就能用。

这波操作挺圈粉,毕竟技术进步从来不是关起门来搞的。

以前总有人说全景深度估计是“空间智能的硬骨头”,数据少、泛化差,怎么啃都啃不动。

DAP这波操作,相当于直接端出了个“高压锅”,200万数据当“火”,三阶段精炼当“菜谱”,硬生生把这骨头炖烂了。

现在空间智能圈都在传,DAP可能是今年最重要的技术突破之一。

打开网易新闻 查看精彩图片

它不光解决了老问题,还搭了个“全景视觉基座”,以后不管是搞自动驾驶还是机器人,都能站在这基座上往上盖楼。

说不定过两年咱们玩VR游戏,戴个眼镜就能摸到虚拟世界的桌子,那时候可得感谢DAP这波神操作。

这技术到底能火多久?不好说。

但至少现在看来,全景深度估计总算从“摸黑走路”,变成“开着导航狂奔”了。

打开网易新闻 查看精彩图片

对咱们普通人来说,以后生活里的智能设备越来越“聪明”,背后可能就有DAP的一份功劳。

打开网易新闻 查看精彩图片