浙江大学公布人形机器人新专利灵巧手仿人操作再进化！|人形机器人|位姿|手仿人|浙江大学|灵巧手|真实世界|轨迹

近，浙江大学公布了“基于人类动作预测模型的多指灵巧手操作强化学习方法”的新专利，属于人形机器人灵巧手具身操作领域。

来源：章国锋.基于人类动作预测模型的多指灵巧手操作强化学习方法

随着具身智能技术的快速发展，如何以数据驱动方式赋予人形机器人通用操作技能，已成为当前机器人领域的研究热点。其中，多指灵巧手凭借仿人化结构设计，可在多种复杂场景下完成精细操作，实现拟人化的多指灵巧操控，是迈向通用人形机器人的关键环节。

在数据驱动的多指灵巧手操作学习领域，现有方法主要分为三类。

第一类为传统强化学习方法，该类方法依靠奖励函数驱动智能体进行大量探索，通常需要针对不同任务重新设计奖励函数。

第二类方法直接利用数据集中的人手轨迹，通过重映射生成灵巧手的专家轨迹，再借助模仿学习复现对应的操作行为。

第三类方法基于神经网络，根据预先硬编码的物体轨迹预测灵巧手的未来运动轨迹，并结合残差强化学习对底层控制进行优化。

当前主流方法均有一些短板。第一类方法受限于灵巧手远超平行夹爪的空间自由度和复杂度，训练时探索空间过大，导致收敛速度慢、成功率不稳定；同时，灵巧手与物体的非线性交互特性，需人工针对不同场景设计奖励函数，难以实现通用化。第二类方法过度依赖人类数据记忆，泛化能力薄弱，无法应对全新物体和位姿，且忽视了对被操作物体的感知与理解。第三类方法需预先掌握物体完整轨迹，不仅增加了开放世界部署成本，还对物体初始位姿要求极高，难以处理位姿偏离训练数据的情况。

综上，现有方法多单纯模仿人手行为，忽视物体感知理解及人手-物体交互的整体建模，导致其在不同物体、位姿和任务下泛化性能不佳。因此，引入物体感知理解、实现人手-物体交互过程整体预测，成为亟待解决的核心技术难题。

针对这一痛点，浙大团队提出了一套高效解决方案。团队利用标注了人手与物体三维位姿的数据，训练人类动作预测模型，实现了人手与物体交互三维轨迹的泛化生成。基于该预测轨迹，团队构建通用奖励函数，应用于仿真环境中灵巧手强化学习策略的训练。随后，通过仿真参数域随机化与课程学习，有效提升策略从仿真到现实的迁移性能，最终将训练成熟的强化学习策略成功部署至真实机器人系统，为灵巧手的实用化应用提供了可行路径。