谷歌AI博客：人工智能通过观察狗来教机器人如何移动|163

谷歌AI博客本周发表了一篇文章，其研究人员开发出一种人工智能系统，可以从动物的动作中学习，从而赋予机器人更大的灵活性。研究人员认为他们的方法可以促进机器人的发展，这些机器人可以完成现实世界中的任务，比如在多层仓库和配送中心之间运输物品。

该团队的框架采用动物(本案例中是一条狗)的动作捕捉片段，并使用强化学习(reinforcement learning)来训练控制策略。为系统提供不同的参考动作，使得研究人员能够“教”一个四足的Unitree Laikago机器人完成一系列动作，比如从快走(以每小时2.6英里的速度)到跳跃或转弯。

为了验证他们的方法，研究人员首先收集了一组真实狗狗的各种技能数据。(训练主要是在物理模拟中进行的，因此可以密切跟踪参考运动的姿态)。然后，通过在奖励函数中使用不同的动作(该函数描述了行为者应该如何表现)，研究人员使用了大约2亿个样本来训练一个模拟机器人模仿动作技能。

但是模拟器通常只能提供对真实世界的粗略近似。为了解决这个问题，研究人员采用了一种适应性技术，通过改变机器人的质量和摩擦等物理量来随机化模拟中的动力学。这些值是用编码器映射到一个数字表示（即编码）作为输入传递给机器人控制策略。当将该策略部署到一个真实的机器人上时，研究人员删除了编码器，并搜索出一组允许机器人成功执行技能的变量。

该团队表示，他们能够在大约50次试验中，利用不到8分钟的真实数据，使一项策略适应现实世界。此外，他们还演示了现实世界中的机器人学会了模仿狗的各种动作，包括踱步和小跑，以及动画中的关键帧动作，如动态跳跃转弯。

论文作者写道:“我们证明，通过利用参考运动数据，一种单一的基于学习的方法能够为腿式机器人的各种行为自动合成控制器。”“通过将高效样本的领域适应技术整合到训练过程中，我们的系统能够在模拟中学习适应策略，然后能够快速适应现实世界的部署。”

控制策略并不完美——由于算法和硬件的限制，它不能学习高度动态的行为，如大的跳跃和行为，也不像最好的手动设计的控制器那样稳定。研究人员将继续改进控制器的鲁棒性，并开发能够从其他运动数据来源(如视频剪辑)学习的框架。