教会机器人在新环境中导航是个棘手的任务。你可以利用人类录制的真实世界数据对它们进行训练,但这些数据不仅稀缺,还需要高昂的成本来收集。数字模拟是一种快速且可扩展的训练方式,但机器人常常在从虚拟世界转移到现实环境后难以完成相同的任务。
如今,有了一种潜在的更优方案:一个结合生成式 AI 模型和物理模拟器的新系统,用于创建更贴近物理世界的虚拟训练场。通过这种方法训练的机器人,在现实世界测试中的成功率比采用传统技术训练的机器人更高。
研究人员使用这一名为 LucidSim 的系统训练了一只机器狗进行跑酷,使其能够爬过箱子、上楼梯,尽管它从未接触过任何真实世界的数据。这种方法展现了生成式 AI 在教机器人执行复杂任务方面的潜力,也提出了一个可能性:我们或许最终能完全在虚拟世界中训练机器人。相关研究已于上周的机器人学习会议(Conference on Robot Learning, CoRL)上发表。
“我们正处于机器人领域的工业革命之中,”MIT 计算机科学与人工智能实验室(MIT CSAIL)的博士后研究员 Ge Yang 说道,他参与了这一项目。“这是我们尝试理解这些生成式 AI 模型在其原本预期用途之外的影响,希望这能引领我们迈向下一代工具和模型。”
LucidSim 使用生成式 AI 模型的组合来创建视觉训练数据。研究人员首先为 ChatGPT 生成了数千个提示,让其创建涵盖多种环境的描述,这些环境代表了机器人可能在现实世界中遇到的条件,包括不同的天气、时间和光照条件。例如,“一个古老的小巷,两旁是茶馆和小而别致的商店,每家店铺都陈列着传统饰品和书法作品”,“阳光照亮了一片有些凌乱的草坪,草地上点缀着干枯的斑点”。
这些描述随后被输入一个系统,该系统将 3D 几何和物理数据映射到 AI 生成的图像上,从而创建一系列短视频,为机器人绘制轨迹。这些信息帮助机器人计算它需要导航的物体的高度、宽度和深度,例如一个箱子或一段楼梯。
研究人员通过让一只配备摄像头的四足机器人完成多项任务来测试LucidSim的性能,包括找到一个交通锥或足球,爬过一个箱子,以及上下楼梯。结果显示,机器人使用 LucidSim 时的表现明显优于使用传统模拟系统时的表现。在寻找交通锥的 20 次测试中,LucidSim 实现了 100% 的成功率,而使用传统模拟系统的成功率仅为 70%。同样,在另一组 20 次找到足球的测试中,LucidSim 的成功率为 85%,而传统系统仅为 35%。
最后,当机器人运行 LucidSim 时,它在所有 10 次楼梯攀爬测试中都成功完成了任务,而传统系统的成功率仅为 50%。
“如果 LucidSim 能够直接利用先进的生成式视频模型,而不是现在这种语言、图像和物理模型的拼接组合,未来的结果可能会进一步改善,”MIT 副教授 Phillip Isola说,他参与了这项研究。
纽约大学博士生 Mahi Shafiullah 也表示,研究人员采用生成式 AI 的方式是一种新颖的尝试,将为更多有趣的新研究铺平道路。他目前使用 AI 模型训练机器人,但并未参与该项目。他补充道:“在我看来,更有趣的方向是结合真实数据和逼真的‘想象’数据,这样可以帮助我们现有的依赖数据的方法更快更好地扩展。”
华为的资深研究科学家 Zafeirios Fountas,专注于脑启发式 AI,他指出,能够完全基于 AI 生成的情境和场景从零开始训练机器人是一个重要成就,其影响可能不仅限于机器,还能扩展到更广泛的通用 AI 智能体。
“这里‘机器人’的定义非常广泛,我们谈论的是任何一种与现实世界交互的 AI,”Fountas 说。“我可以想象这一技术被用于控制各种视觉信息,从机器人和自动驾驶汽车到电脑屏幕或智能手机的操作。”
关于下一步研究,作者计划尝试使用完全合成的数据训练人形机器人。他们承认这是一个雄心勃勃的目标,因为双足机器人通常比四足机器人更不稳定。他们还将目光投向另一个新挑战:利用 LucidSim 训练用于工厂和厨房的机器人手臂。这些任务需要比在场景中奔跑更高的灵活性和物理理解能力。
“例如实际拿起一杯咖啡并将其倒出,这是一个非常困难且尚未解决的开放性问题,”Isola 说。“如果我们能够利用生成式 AI 增强的模拟来创造大量的多样性,并训练出一个能够在咖啡馆中操作的非常强大的智能体,我觉得那将非常酷。”
https://www.technologyreview.com/2024/11/12/1106811/generative-ai-taught-a-robot-dog-to-scramble-around-a-new-environment/
热门跟贴