哈喽,大家好,今天小墨这篇科技解析,就带大家聚焦浙大团队的重磅研究,把人类当 “特殊机器人” 采集数据,底层空间感知技术究竟如何破解机器人训练难题?

现在人形机器人越来越受关注,但想让它们自主干活,先得解决一个关键问题,怎么精准“看懂”周围环境?

浙大研究员彭思达在“世界模型”分论坛上,分享了通用空间感知技术的研究成果,不仅破解了这个难题,还提出了用人类行为数据训练机器人的新思路。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

机器人“看懂”世界难在哪

机器人要自己行动,得具备三个基础“感知能力”,一是知道自己在哪(相机定位)。

二是清楚和周围物体的距离(深度估计),三是能察觉物体动不动(物体运动估计)。

这三项能力就像机器人的“眼睛和大脑”,是它避开障碍、抓起东西、规划路线的关键前提。

打开网易新闻 查看精彩图片

目前行业有两个难解决的问题,一是复杂环境下感知不准,比如白天黑夜交替、热成像和普通画面混用的场景,传统技术容易“失灵”,导致机器人“迷路”。

二是训练数据不够用,仿真数据和真实世界有差距,人工操控采集的数据又没法大规模获取。

彭思达团队正是瞄准这两个问题,一边优化底层感知技术,一边找新的训练数据获取方式。

但目前行业有两个绕不开的难题,复杂环境下“看不清”,比如白天黑夜切换、热成像和普通画面混用的场景,传统技术容易出错,导致机器人“迷路”。

打开网易新闻 查看精彩图片

训练数据不够用,仿真数据和真实世界有差距,人工操控采集的数据又没法大规模获取,拖累技术进步。

打开网易新闻 查看精彩图片

给机器人装上“高清感知眼”

在相机定位上,传统方法在纹理少、视角偏差大的场景下容易失效。

在“知道自己在哪”(相机定位)方面,传统方法在纹理少、视角偏的场景下容易失效。

团队用大模型替代传统方式,解决了这个问题,后来推出的MatchAnything技术更厉害,能实现红外和可见光、卫星和无人机图像的精准匹配,就算无人机夏天拍的卫星图、冬天去工作也能对应上,大大提升了遥感和自动驾驶的可靠性。

打开网易新闻 查看精彩图片

针对技术落地的问题,团队还优化了流程,让三维重建更精准。

在“判断距离”(深度估计)方面,团队解决了行业通病,物体边缘判断不准的“飞点”问题。

通过优化模型,能精准识别到远处叶片的细节,还借鉴语言提示词的思路,让雷达数据辅助判断绝对深度,提升机器人抓取成功率。

后续技术还解决了三维重建的裂痕问题,让机器人能完成抓线缆这样的精细活。

在此基础上他们还借鉴语言提示词技术,让雷达数据作为“参考”输入模型,实现了绝对深度输出,提升了机器人抓取成功率。

打开网易新闻 查看精彩图片

后续的InfiniDepth方法,还解决了三维重建的裂痕问题,让机器人能完成抓取线缆这样的精细活。

打开网易新闻 查看精彩图片

把人类当“老师”,解决数据匮乏

除了技术优化,团队还有个大胆想法:人类本身就是“最厉害的机器人”,有完整的身体和成熟的行为模式。

如果能通过感知技术,把人类日常行动的数据记录下来,就能直接用来训练机器人,从根源上解决数据不够的问题。

为了精准记录人类行为,团队研发了三维跟踪技术。

打开网易新闻 查看精彩图片

和传统的二维跟踪容易丢目标不同,它能把图像还原到三维空间,跟踪更稳定,让“用人类数据练机器人”的想法能落地。

这些技术已经能用到多个领域,自动驾驶中,帮车辆更好地应对复杂路况,减少极端天气事故。

遥感领域,让无人机精准匹配地形,助力测绘和灾害监测;工业场景里,提升机器人抓取、装配的精度,推动智能制造。

这些成果离不开浙大在相关领域的积累,团队研发的开源工具还获得了2024年相关行业奖项。

打开网易新闻 查看精彩图片

底层空间感知技术是机器人变智能的关键。

彭思达团队的研究,既解决了机器人“看不清”的问题,又找到了新的训练方法,为机器人商业化指明了方向。

未来随着技术落地,机器人会更精准灵活地融入生活,浙大等科研机构的深耕也会助力中国在这一领域保持优势。