想象一下,你坐在黑暗的电影院里,想知道你的大杯子里还剩下多少苏打水。你不用撬开盖子查看,而是拿起杯子摇晃一下,听听里面有多少冰在晃动,这样就能大致判断你是否需要免费续杯。

你把饮料放回原处,心不在焉地想着扶手是不是真木做的。然而,敲了几下,听到空洞的回声后,你断定它一定是塑料做的。

打开网易新闻 查看精彩图片

这种通过物体发出的声波振动来理解世界的能力是我们无需思考就能做到的。研究人员即将把这种能力带给机器人,以增强它们快速发展的感知能力。

杜克大学的一项新研究详细介绍了一种名为SonicSense的系统,该系统允许机器人以以前仅限于人类的方式与周围环境互动。

“如今的机器人主要依靠视觉来解读世界。”论文第一作者、杜克大学机械工程与材料科学教授陈博远(音)、实验室一年级博士生刘嘉勋(音)解释道,“我们希望创造一种解决方案,可以处理日常复杂多样的物体,让机器人拥有更丰富的‘感受’和理解世界的能力。”

SonicSense的机器人手有四根手指,每根手指的指尖都嵌入了一个接触式麦克风。这些传感器可以检测并记录机器人敲击、抓握或摇动物体时产生的振动。由于麦克风与物体接触,机器人可以屏蔽环境噪音。

根据交互和检测到的信号,SonicSense提取频率特征并利用其先前的知识,结合人工智能的最新进展,确定物体的材质及其3D形状。如果是系统从未见过的物体,系统可能需要20次不同的交互才能得出结论。但如果是数据库中已有的物体,它只需4次就能正确识别。

陈说,“SonicSense为机器人提供了一种新的听觉和感觉方式,就像人类一样,它可以改变当前机器人感知和与物体互动的方式,虽然视觉是必不可少的,但声音增加了信息层,可以揭示眼睛可能错过的东西。”

在论文和演示中,陈和他的实验室展示了SonicSense的多项功能。通过转动或摇动一个装满骰子的盒子,它可以计算出里面的骰子数量和骰子形状。通过对一瓶水做同样的操作,它可以知道里面有多少液体。通过轻敲物体的外部,就像人类在黑暗中探索物体一样,它可以对物体的形状进行3D重建,并确定它是由什么材料制成的。

虽然SonicSense并不是首次尝试使用这种方法,但它比以前的工作更进一步,使用四根手指代替一根手指,使用触摸式麦克风来消除环境噪音和先进的AI技术,效果更好。这种设置使系统能够识别由多种材料组成的物体,这些物体具有复杂的几何形状、透明或反射表面,以及对基于视觉的系统具有挑战性的材料。

刘说,“虽然大多数数据集是在受控实验室环境中或人工干预下收集的,但我们需要我们的机器人在开放实验室环境中独立与物体互动,在模拟中很难复制这种复杂程度。受控数据和现实世界数据之间的差距至关重要,而SonicSense通过使机器人能够直接与物理世界的多样化、混乱的现实互动来弥补这一差距。”

这些能力使SonicSense成为训练机器人在动态、非结构化环境中感知物体的坚实基础。其成本也非常低;使用音乐家用来录制吉他声音的相同接触式麦克风、3D打印和其他市售组件,可将构建成本保持在200多美元。

未来,该团队将致力于增强系统与多个物体交互的能力。通过集成物体跟踪算法,机器人将能够处理动态、混乱的环境——使其在现实世界任务中的适应能力更接近人类。

另一个关键发展在于机械手本身的设计,陈补充道:“这只是一个开始。未来,我们设想SonicSense将用于更先进的机械手,具有灵巧的操控技能,使机器人能够执行需要细致触觉的任务,我们很高兴探索如何进一步开发这项技术,以整合多种传感模式,例如压力和温度,以实现更复杂的交互。”