灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

人工智能学家

2024-09-30 19:02 ·北京 ·优质互联网领域创作者

来源：ScienceAI

编辑：萝卜皮

人们每天都会执行许多任务，例如系鞋带或拧紧螺丝。但对于机器人来说，学习这些高度灵巧的任务非常困难。为了让机器人在人们的生活中更多的发挥作用，它们需要更好地在动态环境中与物理对象接触。

近日，谷歌 DeepMind 的研究人员宣布开发了两款新型人工智能机器人系统。一款名为 ALOHA Unleashed，旨在推动双臂操控科学的发展。另一款名为 DemoStart，旨在提升拥有多个手指、关节或传感器的机器人手的功能。

同时，DeepMind 团队在最近的论文中还公布了一项使机器人灵活适应未知任务的解决策略，使机器人可以更从容地处理现实场景中出现的未知任务、意外任务。

ALOHA Unleashed：提高机器人灵活性的简单秘诀

ALOHA Unleashed 方法以 ALOHA 2 平台为基础，该平台基于斯坦福大学的原始 ALOHA（一种用于双手遥控的低成本开源硬件系统）。

ALOHA 2 比之前的系统更加灵巧，因为它有两只手，可以轻松进行遥控以进行训练和数据收集，并且它允许机器人通过更少的演示来学习如何执行新任务。

论文链接：https://aloha-unleashed.github.io/assets/aloha_unleashed.pdf

为了让机器人手更灵巧，研究人员开发了一个协议来收集任何双手操作平台都无法比拟的大规模数据，在真实机器人上对 5 项任务（例如系鞋带和将衣服挂在衣架上）进行了超过 26,000 次演示，在 3 项模拟任务上进行了超过 2,000 次演示。

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

视频：双臂机器人拉直鞋带并将其打成蝴蝶结的示例。（来源：DeepMind 官网）

研究人员发现，单靠数据是不够的。该方法的另一个关键要素是使用扩散损失进行训练的基于 Transformer 的学习架构。

该架构以多个视图为条件，对动作轨迹进行去噪，该轨迹在滚动视界设置中以开环方式执行。结果表明，非扩散架构无法解决这里的某些任务，尽管之前已针对 ALOHA 平台进行了调整。

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

视频：双臂机器人的示例：将一件 Polo 衫铺在桌子上、放在衣架上、然后挂在衣架上。（来源：DeepMind 官网）

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

视频：双臂机器人修理另一个机器人的示例。（来源：DeepMind 官网）

研究人员表示，这是目前为止第一个可以自主系鞋带或挂 T 恤的机器人端到端策略。

DemoStart：强化学习应用于多指机器人，从模拟到现实

控制灵巧的机械手是一项复杂的任务，随着手指、关节和传感器的增加，这项任务变得更加复杂。

在另一篇新论文中，DeepMind 团队介绍了 DemoStart，它使用强化学习算法帮助机器人在模拟中获得灵巧的行为。这些学习到的行为对于复杂的实施例（如多指手）特别有用。

论文链接：https://arxiv.org/abs/2409.06613

DemoStart 首先从简单状态开始学习，然后随着时间的推移，从更困难的状态开始学习，直到它尽其所能掌握一项任务。与从现实世界示例中学习相同目的所需的模拟演示相比，它学习如何在模拟中解决一项任务所需的模拟演示要少 100 倍。

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

视频：机械臂在模拟（左）和真实环境（右）中学习成功插入黄色连接器的示例。（来源：DeepMind）

灵巧的机器人，DeepMind推出两个基于AI的机器手系统和未知场景「生成式AI」应对策略

视频：机械臂在模拟中学习拧紧螺钉螺栓的示例。（来源：DeepMind）

在模拟中，该机器人在执行多项不同任务时的成功率超过 98%，包括重新定向显示特定颜色的立方体、拧紧螺母和螺栓以及整理工具。

在真实世界中，它在重新定向和提起立方体时的成功率为 97%，在需要高手指协调性和精确度的插头插座插入任务中成功率为 64%。

Gen2Act：新场景中的人体视频生成可实现通用机器人操控

机器人操作策略如何推广到涉及未见过的物体类型和新动作的新任务？

DeepMind 团队提供了一种解决方案 Gen2Act，即通过人类视频生成从网络数据中预测运动信息，并根据生成的视频调整机器人策略。

该团队展示了如何利用在易于获取的网络数据上训练的视频生成模型来实现泛化，而不是尝试扩展昂贵的机器人数据收集。

论文链接：https://arxiv.org/abs/2409.16283

Gen2Act 将语言条件操纵视为零样本人类视频生成，然后使用以生成的视频为条件的单一策略执行。

为了训练该策略，研究人员使用的机器人交互数据比视频预测模型训练时的数据少一个数量级。Gen2Act 不需要微调视频模型，可以直接使用预先训练的模型来生成人类视频。

图示：Gen2Act 学习生成人类视频，然后根据生成的视频执行机器人策略。这可以在未见过的场景中实现多样化的现实世界操控。（来源：论文）

研究人员在各种现实场景中测试了 Gen2Act。并展示了，Gen2Act 如何能够操纵看不见的物体类型并执行机器人数据中不存在的任务的新颖动作。

视频：视频生成和机器人执行的详细结果。（来源：网络）

相关内容：https://techxplore.com/news/2024-09-google-deepmind-unveils-ai-based.html

未来知识库是“ 欧米伽未来研究所”建立的在线知识库平台，收藏的资料范围包括人工智能、脑科学、互联网、超级智能，数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴