编辑丨%
如果知道正确地提出需求,那么机器人就会成为令人爱恨交加的玩意:它们几乎可以完成你想要它们做的任何事情。在不久的过去,正确地要求意味着编写代码,虽然人类已经幸运地超越了这种脆弱的限制,但使用简便程度和任务复杂程度之间仍然存在令人烦恼的负相关联系。
AI 承诺改变这一点。其理念是当 AI 被赋予机器人——使人工智能软件在世界上拥有物理存在——这些机器人将被赋予推理和理解能力。这是尖端技术,尽管我们已经看到了许多在研究环境中体现 AI 的例子,但要找到推理机器人能够提供可靠商业价值的应用并不容易。
波士顿动力公司是少数几家在可观的规模上商业化部署了腿式机器人的公司之一;现在已有数千台机器人在工作。jinri该公司宣布,其四足机器人 Spot 现在配备了谷歌 DeepMind 的 Gemini Robotics-ER 1.6,这是一种高级体感推理模型,为复杂任务带来了可用性和智能。
图示:Spot 在家中运行。
https://youtu.be/LP4-c5AK30g?si=dwB5ylGCChAAnP0D
虽然有关团队展示了 Spot 在家中的场景,但这次合作的重点是少数几个足部机器人在商业上可行的应用之一:检查。也就是说,在工业设施中走动,检查是否有即将爆炸的危险。有了新的 AI,Spot 现在能够自主寻找危险的碎片或泄漏物,读取复杂的仪表和视镜,并在需要帮助理解周围环境时调用视觉-语言-动作模型等工具。
理解机器人理解
“推理”和“理解”这两个词越来越多地被应用于人工智能和机器人领域,但这些词在实际中对于机器人究竟意味着什么并不总是很明确。“当我们谈论理解时,我们衡量自己的基准是系统应该像人类一样回答,”谷歌 DeepMind 的机器人负责人 Carolina Parada 在一次采访中解释道。
为了让机器人可靠且安全地执行任务,机器人理解世界的方式与人类理解的方式之间的联系至关重要。否则,人类给机器人的指令和机器人决定如何执行任务之间可能会出现脱节。
视频中就是一个显而易见的例子。给 Spot 的指令之一是“回收客厅里的任何罐头”,这对它而言并不困难,但在完成任务时,它横着抓住罐头,这对那些里面还有剩余液体的罐头来说可就不妙了。我们会避免这种情况,因为我们能凭经验就知道罐头应该如何拿取,但机器人还没有(具备)那种世界知识。
图示:机器人技术赋能的智能检测。
https://youtu.be/kBwxmlI2yHQ?si=sGn6J9LkgWLqjbpo
作为一个高级推理模型,Gemini Robotics-ER 1.6 与机器人本身作为物理世界的接口之间似乎仍存在一定程度上的脱节。该版本的一个新功能是成功检测,它结合多个摄像头角度来更可靠地判断 Spot 是否成功抓取了物体。
这对于完全依赖视觉进行物体交互的机器人来说,非常合适。但机器人有各种其他成熟的方法来检测成功抓取,包括触觉传感器和力传感器,而 1.6 并没有使用这些方法。这种情况的原因涉及到机器人领域仍在试图解决的问题:当需要物理数据时如何训练模型。
Parada 表示,目前网络上关于视觉训练的信息很多,但带有触觉传感的数据并不多见。倘若能寻找到更多有关数据,学习会更加轻松。
实用的现实机器人
在依赖 AI 进行商业部署的腿式机器人领域,波士顿动力凭借其客户市场显得格格不入。涉及 AI 时,客户对于机器人的信任度始终是一个问题。
在一次采访中,相关负责人表示,他们通过 Beta 计划将新的 DeepMind 功能向一小部分客户推出,以了解需要预期什么,并且只宣传那些有信心能起作用的部分。
作为可扩展的商业平台的稀有地位,Spot 带来了一个宝贵的机会,让人们得以认识到像 Gemini Robotics-ER 1.6 这样的模型如何最有效,然后将这些知识应用于其他具身 AI 平台。
这意味着波士顿动力的 Atlas 将成为下一个工业检查机器人吗?可能不会。但如果这种实际经验能让人们更接近于能够安全可靠地捡起衣物、遛狗、清理易拉罐而不弄脏环境的机器人,那将是未来一件极为有趣的事。
https://spectrum.ieee.org/boston-dynamics-spot-google-deepmind
热门跟贴