MIT让机器人学会“透视海水”：浑浊海底也能实时建图|mit|光学|声学|机器人|海底|算法

对于水下机器人来说，浑浊的海水就像一堵看不见的墙。

当机器人降落到海底，或在沙地里进行挖掘、抓取等操作时，螺旋桨和机械臂很容易搅起大量泥沙。短短几秒钟内，原本清晰的视野就会变成一片浑浊，摄像头几乎什么也看不见。很多时候，机器人只能停在原地，等泥沙慢慢沉降后再继续工作。

这听起来似乎不是什么大问题，但在一些场景中：例如水下排爆、深海打捞、海底设施巡检等，这种等待不仅会拖慢机器人的作业效率，更会增加额外的成本和风险。因为机器人如果无法及时判断周围环境，可能发生激烈碰撞或误操作。

这个问题在最近迎来了进展：美国麻省理工学院与伍兹霍尔海洋研究所（Woods Hole Oceanographic Institution，WHOI）的工程师合作开发了一套名为 Sonar-MASt3R 的水下测绘系统，能够将声呐传感器的声学数据与光学摄像头的视觉图像融合在一起，使水下机器人在低能见度的浑浊水域中也能实时生成精细的三维地图。

该研究由 MIT 航空航天系研究生 Amy Phung 主导，与 WHOI 应用海洋物理与工程领域的资深科学家 Richard Camilli 合著。目前已在 ICRA 上正式发表并入选最佳论文候选名单。

据研究团队透露，推动这项研究的重要出发点之一，就是水下未爆弹药的清除。许多历史遗留爆炸物埋藏在近岸海域的沉积物中，不仅影响航运安全，也给海洋工程带来风险。

长期以来，水下感知技术在两种方案之间权衡。一个是光学摄像头，另一个是声呐。前者能够提供丰富的纹理、颜色和细节信息，但对环境要求极高。一旦进入深海、夜间环境，或是被泥沙和沉积物遮蔽的区域，相机获取的信息便会急剧下降。相比之下，声呐几乎不受水体浑浊程度影响，它通过发射声波并分析回波来测量目标的距离、轮廓和深度，即使在完全看不见的环境中也能工作。

但声呐也有自己的局限性。它擅长回答“那里有什么”，却很难回答“那到底是什么”的问题。相比真实图像，声呐生成的结果像是一幅缺少纹理与色彩的地形图，只能勾勒出目标的大致轮廓。

因此，过去十余年里，研究人员一直试图将视觉与声学两种感知方式结合起来，这一方向被称为“光学-声学融合（Opti-Acoustic Fusion）”。理论上，视觉负责提供细节，声呐负责提供距离和结构信息，两者结合能够兼顾分辨率与鲁棒性。

然而，真正实现这一目标并不容易。此前的大多数研究主要面向目标识别或局部场景重建，往往需要离线处理数据，难以满足实时作业需求。能够同时实现实时运行、三维建图，并适用于高浑浊水下环境的系统一直十分罕见。

但这一次，MIT 团队的 Sonar-MASt3R 做到了。它脱胎于一个名为 MASt3R（Matching And Stereo 3D Reconstruction，匹配与立体三维重建）的图像匹配算法。该算法由法国 Naver Labs Europe 团队开发，并于 2024 年发表在欧洲计算机视觉大会 ECCV 上。而 MASt3R 又建立在更早的 DUSt3R 框架之上。

相比前代，MASt3R 最大的改进是在网络中增加了一个专门输出稠密局部特征图的模块（Head），并配合快速互惠匹配算法，能够从多张二维图像中快速估算场景内每个像素的相对深度，从而在不依赖相机位姿信息的情况下实时生成三维点云。

不过，MASt3R 也存在一个短板：它输出的是相对深度，而不是绝对深度。用 Phung 的话来说，“它会告诉你这个像素比另一个像素近 5 个单位，却没法告诉你这 5 个单位究竟是 5 米还是 5 英尺。”对于需要精确判断距离、避免碰撞的水下机器人来说，这显然不够。

这就是声呐派上用场的地方。由于声波传播速度已知，声呐可以通过回波返回时间直接计算目标的实际距离和深度，为场景提供可靠的绝对尺度信息。这也成为 Phung 和 Camilli 破题的思路：既然 MASt3R 擅长重建三维世界，那么就让声呐来补上它最缺失的那部分，也就是真实距离。

他们研究出的 Sonar-MASt3R 系统大致分为两个阶段。

首先是“声呐扫描”。实验中，一台搭载声呐传感器的机械臂代替真实水下载具，在水箱中缓慢完成一次横向扫描。系统根据收集到的声学数据，快速生成环境的粗略三维轮廓图。这张地图虽然缺乏视觉细节，却拥有准确的空间尺度信息：哪里有巨石、哪里有箱体、它们距离机器人多远，都能够被标注出来。

随后进入第二阶段，“光学抵近”。机器人根据声呐地图判断目标位置，安全地向目标靠近。当距离足够近时，水下摄像头开始采集高分辨率图像，并将其送入改进后的 MASt3R 管线进行处理。

为了保证实时性，系统采用了一种“关键帧”策略。每一帧新图像都会与上一关键帧进行比较，如果包含新的环境信息，就被纳入地图；如果内容变化不大，则直接丢弃。这样既减少了冗余计算，也让整个建图过程能够持续实时运行。

为了验证这一思路是否有效，研究团队在 WHOI 的水箱设施中搭建了一套可控实验环境。研究人员在水箱中放置了一块小型岩石、一个咖啡杯和一个包装箱等目标物体，并通过不断搅动沉积物，制造出 8 种不同程度的浑浊环境。结果显示，在所有浊度条件下，Sonar-MASt3R 的三维建图精度和分辨率都优于此前的光学-声学融合方法，能够识别厘米级别的细节。