近,浙江大学公布了“基于人类动作预测模型的多指灵巧手操作强化学习方法”的新专利,属于人形机器人灵巧手具身操作领域。

来源:章国锋.基于人类动作预测模型的多指灵巧手操作强化学习方法

随着具身智能技术的快速发展,如何以数据驱动方式赋予人形机器人通用操作技能,已成为当前机器人领域的研究热点。其中,多指灵巧手凭借仿人化结构设计,可在多种复杂场景下完成精细操作,实现拟人化的多指灵巧操控,是迈向通用人形机器人的关键环节。

在数据驱动的多指灵巧手操作学习领域,现有方法主要分为三类。

第一类为传统强化学习方法,该类方法依靠奖励函数驱动智能体进行大量探索,通常需要针对不同任务重新设计奖励函数。

第二类方法直接利用数据集中的人手轨迹,通过重映射生成灵巧手的专家轨迹,再借助模仿学习复现对应的操作行为。

第三类方法基于神经网络,根据预先硬编码的物体轨迹预测灵巧手的未来运动轨迹,并结合残差强化学习对底层控制进行优化。

当前主流方法均有一些短板。第一类方法受限于灵巧手远超平行夹爪的空间自由度和复杂度,训练时探索空间过大,导致收敛速度慢、成功率不稳定;同时,灵巧手与物体的非线性交互特性,需人工针对不同场景设计奖励函数,难以实现通用化。第二类方法过度依赖人类数据记忆,泛化能力薄弱,无法应对全新物体和位姿,且忽视了对被操作物体的感知与理解。第三类方法需预先掌握物体完整轨迹,不仅增加了开放世界部署成本,还对物体初始位姿要求极高,难以处理位姿偏离训练数据的情况。

综上,现有方法多单纯模仿人手行为,忽视物体感知理解及人手-物体交互的整体建模,导致其在不同物体、位姿和任务下泛化性能不佳。因此,引入物体感知理解、实现人手-物体交互过程整体预测,成为亟待解决的核心技术难题。

针对这一痛点,浙大团队提出了一套高效解决方案。团队利用标注了人手与物体三维位姿的数据,训练人类动作预测模型,实现了人手与物体交互三维轨迹的泛化生成。基于该预测轨迹,团队构建通用奖励函数,应用于仿真环境中灵巧手强化学习策略的训练。随后,通过仿真参数域随机化与课程学习,有效提升策略从仿真到现实的迁移性能,最终将训练成熟的强化学习策略成功部署至真实机器人系统,为灵巧手的实用化应用提供了可行路径。

打开网易新闻 查看精彩图片

此专利通过引入对被操作物体的未来姿态的理解,将人手和物体的交互过程作为一个整体来预测,并基于此构建统一、简洁、高效的奖励函数,适用于不同的操作任务、不同类型的灵巧手,具有泛化性强、成功率高、奖励函数通用性强等优点。

来源:章国锋.基于人类动作预测模型的多指灵巧手操作强化学习方法