打开网易新闻 查看精彩图片

2012 年,MIT 的 Ramesh Raskar 团队在 Nature Communications 上首次演示了用超快飞行时间成像技术重建拐角后方物体的三维形状。那套系统需要飞秒激光器和精密光学平台,整套设备造价在 50 万到 100 万美元之间,占满一整间实验室。

十四年后,Raskar 实验室的博士生 Siddharth Somasundaram 用一颗批量售价 3.6 美元的意法半导体传感器,做到了类似的事情。

这项成果 5 月 20 日发表在 Nature 上。Somasundaram 团队使用的是一种便携式智能手机级激光雷达系统,核心是意法半导体的 VL53L8CX 芯片,一颗只有 6.4 毫米见方的飞行时间传感器,内置 940 纳米垂直腔面发射激光器和单光子雪崩二极管(SPAD)探测器阵列,能以每秒 30 帧的速度捕获深度数据。整套硬件成本不到 100 美元,不需要任何额外校准,却能探测到拐角后方被遮挡的物体。

图丨消费级非视距成像(来源:Nature)
打开网易新闻 查看精彩图片
图丨消费级非视距成像(来源:Nature)

这种听起来近乎科幻的效果背后的原理其实并不神秘。核心就是激光雷达发射激光脉冲,光打到墙面后反射,一部分光继续弹射到墙后隐藏的物体上,再反射回墙面,最终被传感器接收。通过分析这些经过多次反弹的极微弱光信号的飞行时间,就能推算出隐藏物体的位置和形状。而墙面在这个过程中充当了一面“虚拟镜子”。

这个方向在学术界已经发展了十多年,被称为非视距成像(Non-Line-of-Sight Imaging,NLOS)。2018 年 O'Toole 等人在 Nature 上提出的光锥变换(Light-Cone Transform)方法让重建算法效率提升了三个数量级,但硬件门槛始终没有降下来。

实验室级系统使用的单光子探测器灵敏度极高、时间分辨率达到皮秒级别,能从微弱的多次反射信号中提取足够的信息完成重建。消费级传感器做不到这一点:激光功率受限于人眼安全标准,曝光时间因为要处理动态场景而很短,空间分辨率也很低。单帧数据里的信噪比根本不够用。

Somasundaram 的思路是放弃从单帧中提取信息,转而融合大量帧的数据。他提出了一个叫“运动诱导孔径采样”(Motion-Induced Aperture Sampling,MAS)的模型,把物体形状、物体运动和相机运动三个因素统一到同一个测量框架里。

其灵感来自两个成熟技术:智能手机相机的连拍模式通过合并多张照片来提升画质,合成孔径雷达通过综合多个天线位置的信号来获得等效于大型天线的分辨率。MAS 模型做的是类似的事情,利用相机的自然手持晃动来扩大虚拟孔径,同时利用多帧之间的冗余信息来提高信噪比。

图丨运动诱导孔径采样模型(来源:Nature)
打开网易新闻 查看精彩图片
图丨运动诱导孔径采样模型(来源:Nature)

“一旦我们开发出能够跨多次测量合并信息的算法,隐藏的信号就开始清晰地浮现出来了。”Somasundaram 对媒体表示。

团队在论文中演示了三项能力。第一项是三维重建:让相机在墙面前自然移动,系统能重建出墙后静止物体的三维形状。

第二项是物体追踪:已知物体的大致形状后,系统能实时追踪它在三维空间中的运动轨迹,甚至能同时追踪多个物体。团队还演示了一个手部追踪的应用,用户戴上回射手套后,系统可以追踪被遮挡的双手位置。

第三项能力是用隐藏物体作为路标来定位相机自身的位置。当机器人面对一面白墙这样缺乏纹理特征的环境时,传统的视觉里程计会失效,但如果墙后面有已知物体,NLOS 信号反而能帮助机器人确定自己在哪里。

这三项能力都实现了实时在线处理。追踪任务使用了粒子滤波算法,用 1,000 个粒子来表示物体位置的概率分布,每一帧根据运动先验传播粒子、根据实测数据评估权重、然后重采样,整个过程在 30Hz 帧率下运行。

但现在的效果还远远达不到科幻电影里的透视画面。Somasundaram 自己也提醒,系统恢复的是极弱信号中的稀疏几何和运动信息,和手机上几百万像素的清晰图像之间还有巨大差距。

系统目前依赖一些较强的假设:物体的形状和运动在帧与帧之间保持相对一致,这样才能把许多极弱的测量累积成较强的信号。如果人突然改变姿态,或者物体被部分遮挡导致形状突变,或者相机发生剧烈抖动,这些假设就会失效。

论文也指出,面对复杂的真实世界反射特性,手工设计的评分函数很难稳健地工作,未来可能需要机器学习来学习更好的匹配策略。

对漫反射物体的效果也明显不如回射材料。论文中虽然证明了 MAS 模型在漫反射条件下仍然可用,但信号质量因为光强的四次方衰减和非共焦路径的干扰而显著下降。

真正让这篇论文上了 Nature 的,可能不是某一项具体能力有多强,而是它所指向的范式转换。过去做 NLOS 成像研究,光是搭建实验平台就需要数万美元和数小时的校准。Somasundaram 团队证明,一颗量产的现成 SPAD 传感器就能完成追踪和定位任务,不需要任何物理校准或额外硬件。团队已经在 GitHub 上公开了全部代码。

“我们认为最重要的意义在于技术的民主化,”Somasundaram 说。“当这样的技术变得人人可及时,人们往往会发现远超原始研究者想象的应用。”

自动驾驶汽车在盲区路口提前感知行人和车辆,仓库机器人在杂乱环境中避开拐角后的障碍物,AR 头显更准确地追踪用户的身体姿态,这些都是论文中列举的潜在方向。但就像 Somasundaram 所说,真正的应用可能来自他们没有想到的地方。

参考资料:

1.https://www.nature.com/articles/s41586-026-10502-x

2.https://spectrum.ieee.org/smartphone-grade-lidar

运营/排版:何晨龙

注:封面/首图由 AI 辅助生成