谷歌研究人员开发了一个人工智能系统,从动物的运动中学习,使机器人更灵活,本周发表的一篇预印论文和博客文章显示。合著者认为,他们的方法可以促进机器人的发展,这些机器人可以在现实世界中完成任务,例如在多层仓库和配送中心之间运输材料。
团队的框架采用动物的运动捕捉剪辑(在本例中为狗),并使用强化学习,一种通过奖励激励软件代理完成目标的培训技术,以训练控制策略。他们说,为系统提供不同的参考动作,研究人员能够"教"一个四条腿的Unitree Laikago机器人执行一系列行为,从快速行走(时速可达2.6英里)到跳跃和转弯。
为了验证他们的方法,研究人员首先编制了一组真实狗执行各种技能。(训练主要在物理模拟中进行,以便可以密切跟踪参考运动的姿势。然后,通过使用奖励函数中的不同动作(描述特工如何做),研究人员用大约2亿个样本训练了模拟机器人来模仿运动技能。
但模拟器通常只提供现实世界的粗略近似值。为了解决这个问题,研究人员采用了一种自适应技术,在模拟中随机化了动力学,例如改变物理量,如机器人的质量与摩擦。这些值使用编码器映射到数字表示(即编码),该表示作为输入传递给机器人控制策略。当将策略部署到真正的机器人时,研究人员删除了编码器,并直接搜索了一组变量,使机器人能够成功执行技能。
研究小组说,他们能够在大约50次试验中使用不到8分钟的真实数据来适应现实世界。此外,他们还证明,现实世界中的机器人学会了模仿狗的各种动作,包括起搏和小跑,以及艺术家动画的关键帧动作,如动态跳跃转弯。
"我们表明,通过利用参考运动数据,一种基于学习的方法能够自动合成控制器,为腿机器人的各种行为进行合成,"论文的合著者写道。通过将示例高效域适应技术纳入培训过程,我们的系统能够学习仿真中的自适应策略,然后快速适应实际部署。
控制策略并不完美 - 由于算法和硬件的限制,它不能学习高度动态的行为,如大跳和运行,它不如最好的手动设计的控制器稳定。(在5集中,每种方法共15次试验,实际机器人平均在6秒后,在起搏;5秒后,向后小跑;9秒旋转;10秒,跳跃转弯。研究人员将工作留给将来改进控制器的鲁棒性,并开发框架,这些框架可以从其他运动数据来源(如视频剪辑)中学习。
热门跟贴