DAP技术破解全景深度估计难题，空间智能迎来技术突破

老男孩儿

2026-01-01 15:47 ·四川

最近Insta360研究团队拉着加州大学圣地亚哥分校、武汉大学这些名校，捣鼓出个叫DAP的新东西，全称DepthAnyPanoramas。

听名字挺玄乎，说白了就是让机器能把360度全景图的“深浅远近”看得明明白白，这事儿以前可没这么靠谱过。

咱们平时看全景图，知道哪儿是墙哪儿是窗，但机器不行，它得靠“深度估计”算出每个点离镜头多远。

这技术对机器人导航、自动驾驶、VR这些领域来说，简直是“眼睛”级别的存在。

可之前这“眼睛”总出问题，要么数据不够用，要么模型看啥都模糊。

搞不清为啥以前全景深度估计总卡壳？说白了就是数据太少，模型没见过世面。

以前学术界玩这个，手里就几万张标注好的全景图，跟抱着一小碗饭想喂饱壮汉似的，模型学出来能靠谱吗？

DAP团队一上来就瞄准了这个死穴。

他们觉得，数据量上不去，啥模型都白搭。

于是硬生生把数据量干到了200万量级，差不多是以前的100倍。

这里面既有Structured3D这类现成的“营养餐”，也有新找来的“家常菜”，反正就是要让模型见够世面。

数据多了，新问题又来了，200万张图里，190万张都没标过深度，总不能让人一张张画吧？人工标注一张全景深度图，成本比买个新手机还高。

DAP团队想了个巧招搞“三阶段伪标签精炼”，简单说就是让模型自己给自己出题、改作业。

第一阶段先拿少量精准的合成数据（比如Structured3D）当“教材”，让模型学明白“深度”到底是个啥物理概念，就像先教孩子认尺子上的刻度。

第二阶段换“练习题”，用190万张没标签的图让模型试着标深度，再用个“深度质量判别器”当“老师”，挑出60万张标得还行的，相当于从一堆草稿里选出能看的作业。

第三阶段把这些“精选作业”和原来的“教材”混在一起，让模型再学一遍，这下模型总算“吃饱喝足”，见过的场景多了，自然不容易犯迷糊。

光有数据还不够，模型本身也得聪明。

DAP用了个叫DINOv3的“大脑”当骨干，这玩意儿提取图像特征特别准，就像给模型配了个高清显微镜，远处的树叶纹理、家具边角都能看得清清楚楚。

最绝的是“动态距离掩码”这招。

全景图里近处的人和远处的山，深度差异能差几十倍，模型很容易顾此失彼。

DAP就给模型装了个“变焦眼镜”，看近处时聚焦细节，看远处时调整比例，不管多远多近，深度算得都靠谱。

测试的时候效果挺惊艳。

以前模型看远处的山，总像打了马赛克，天空还老被算成“离镜头很近”，闹笑话。

DAP出来后，山脉轮廓清清楚楚，天空也知道是“无限远”，复杂家具的纹理都能分毫不差。

有同行说，这相当于给全景深度估计装了个“矫正眼镜”，一下子不“散光”了。

这技术要是落地了，用处可大了去。

自动驾驶的摄像头能看得更广更准，以前转弯时看不到的盲区，现在360度全景深度一扫，哪有行人哪有障碍物，门儿清。

机器人进仓库搬东西，再也不会因为看不清货架深度撞翻箱子。

VR游戏里的场景也会更真实，你伸手去够虚拟桌子，距离感跟现实中一模一样，不会摸空。

更关键的是DAP团队把代码和模型全开源了。

现在项目页面已经上线，谁想用都能拿去改。

搞研究的不用再从零开始攒数据、搭模型，企业想做全景深度应用，直接拿过来就能用。

这波操作挺圈粉，毕竟技术进步从来不是关起门来搞的。

以前总有人说全景深度估计是“空间智能的硬骨头”，数据少、泛化差，怎么啃都啃不动。

DAP这波操作，相当于直接端出了个“高压锅”，200万数据当“火”，三阶段精炼当“菜谱”，硬生生把这骨头炖烂了。

现在空间智能圈都在传，DAP可能是今年最重要的技术突破之一。

它不光解决了老问题，还搭了个“全景视觉基座”，以后不管是搞自动驾驶还是机器人，都能站在这基座上往上盖楼。

说不定过两年咱们玩VR游戏，戴个眼镜就能摸到虚拟世界的桌子，那时候可得感谢DAP这波神操作。

这技术到底能火多久？不好说。

但至少现在看来，全景深度估计总算从“摸黑走路”，变成“开着导航狂奔”了。

对咱们普通人来说，以后生活里的智能设备越来越“聪明”，背后可能就有DAP的一份功劳。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴