想象一下,当你坐在昏暗的电影院中,心里琢磨着超大杯里的汽水还剩多少。

你没有揭开盖子去查看,而是拿起杯子轻轻晃了晃,听听里面冰块晃动的声响,这就能让你大致清楚是否需要免费续杯。

把饮料放回原位,你漫不经心地想着扶手是不是实木做的。

然而,敲了几下,听到空洞的回声后,你就断定它肯定是塑料做的。

这种依靠物体发出的声波振动来解读世界的能力,是我们想都不想就会去做的事情。

将于 11 月 6 日至 9 日在德国慕尼黑举行的机器人学习会议(CoRL 2024)上进行展示,杜克大学的一项新研究详细介绍了一个叫做 SonicSense 的系统,这个系统能让机器人以之前只限于人类的方式与周围环境进行互动。研究结果发布在arXiv预印本服务器上。

如今,机器人大多依靠视觉来解读世界,”该论文的主要作者、杜克大学机械工程与材料科学教授博渊·陈实验室的一年级博士生刘佳勋解释说。“我们希望创造一种解决方案,能够处理日常中复杂多样的物体,赋予机器人更丰富的‘感受’和理解世界的能力。”

SonicSense 配有一只带有四根手指的机械手,每根手指的指尖都嵌入了一个接触式麦克风。这些传感器能够检测并记录机器人轻敲、抓取或摇晃物体时产生的振动。而且因为麦克风与物体接触,所以机器人能够排除环境噪音。

基于这些交互和检测到的信号,SonicSense 提取频率特征,并且利用它先前的知识,结合人工智能的最新进展,搞清楚物体是由什么材料制成的以及其 3D 形状。如果是系统从未见过的物体,可能需要 20 种不同的交互才能得出结论。但如果是数据库中已有的物体,它可以在短短四次交互中正确识别。

“SonicSense 为机器人提供了一种新的听觉和感知方式,非常类似于人类,这可以改变当前机器人感知和与物体互动的方式,”陈说道,他还在电气与计算机工程以及计算机科学领域任职并带有学生。“虽然视觉至关重要,但声音增加了可以揭示眼睛可能错过的事物的信息层。”

在论文和演示中,陈和他的实验室展示了 SonicSense 所实现的许多功能。通过转动或摇晃装满骰子的盒子,它能够计算出里面骰子的数量以及它们的形状。通过对一瓶水做同样的操作,它可以判断里面有多少液体。并且通过在物体外部敲击,就如同人类在黑暗中探索物体一般,它能够构建物体形状的 3D 重建,并确定其由何种材料制成。

虽然 SonicSense 并非首次尝试运用这种方法,但是它比以往的工作更进一步,表现更佳,通过使用四个手指而不是一个手指、能够消除环境噪音的触摸式麦克风和先进的人工智能技术。这种设置使该系统能够识别由多种材料组成、具有复杂几何形状、透明或反射表面以及对于基于视觉的系统具有挑战性的材料的物体。

“虽然大多数数据集是在受控的实验室环境中收集的,或者有人为干预,但我们需要我们的机器人在开放的实验室环境中独立与物体互动,”刘说。“在模拟中要复制这种复杂程度是很困难的。”

“受控数据和现实世界数据之间的这种差距极为关键,而 SonicSense 能够让机器人直接与物理世界中多样且混乱的现实进行交互,从而弥合了这一差距。”

“这些能力使 SonicSense 成为训练机器人在动态、非结构化环境中感知物体的坚实基础。其成本也是如此。通过使用音乐家用于从吉他录制声音的相同接触式麦克风、3D 打印以及其他市售组件,构建成本保持在略高于 200 美元。”

“展望未来,该团队正在努力提升系统与多个物体交互的能力。通过集成对象跟踪算法,机器人将能够应对动态、杂乱的环境,从而让它们在现实任务中更接近人类般的适应能力。”

另一项关键的发展在于机器人手自身的设计。“这只是个开始。未来,我们设想 SonicSense 能够被应用于具备灵巧操作技能的更先进的机器人手中,让机器人能够完成需要细微触觉感知的任务,”陈说。“我们满怀兴奋地探索如何进一步开发这项技术,以整合多种诸如压力和温度之类的感觉模式,实现更复杂的交互。”