今年5月,北京大学与银河通用机器人共同成立了「北大-银河通用具身智能联合实验室」,身为北京大学前沿计算研究中心助理教授、博士生导师的王鹤担任联合实验室主任。
在本月举办的WAIC 上,王鹤在「人形机器人与具身智能发展论坛」上,发表了他对通用机器人发展现状、商业应用及近期趋势的思考。
「通用」的两个维度
随着NVIDIA Project GR00T的发布,「通用机器人」这一概念的热度随之高涨。
在王鹤看来,通用人形机器人要实现专用机器人不能做的柔性工作,满足多样任务的需求,并且能够用自然语言来与人沟通。
“这些目标一旦达到,我们就实现了员工型的机器人,员工型机器人对未来中国制造业劳动力的巨大缺口,以及人口负增长时代的养老缺口,都将起到重要的弥合作用。”
他认为,「通用」可以分为两个维度:
1、任务通用性:机器人不能只做一件事情,而是至少在应用场景中完成N件事情,才能真正节省一个人力。
2、环境通用性:不限于单一场景,而是可以跨场景、跨地形穿梭工作。
基于这两点通用性,如今的研发工作要从本体层、数据层去考虑人形机器人的基石——基于本体和数据搭建通用机器人的大脑和小脑。
通用机器人的“体与脑”
王鹤从「四个元素」来讲解了银河通用机器人的思考:本体、数据、大脑、小脑。
一、本体
顾名思义,人形机器人的形态与人类最为相似。
不过在未来,通用机器人也可能具备各种形态。不过最终,只有最大程度与人类工作需求相匹配的机器人,能够得到最大的市场比重。
人形机器人可被拆分为上半身的双手、双臂、眼脑,以及下半身的双腿。上半身是干活儿的核心,主要是靠双手和双臂来做的;而双腿就是为了实现环境通用,让机器人穿梭于各个场景。
“还有一点大家可能没有意识到:腿还有一个重要作用是辅助手——如果腿不能下蹲,手就摸不到地。也就是说,腿能够扩展手的工作空间,从地面一直到2m以上。
王鹤表示,这一点是腿式人形机器人的一大挑战——除行走之外,类似弯腰捡、蹲下拿的能力比较欠缺,一系列腿部强化学习和能力有待发展。
“当物品从货架上掉下来,如果人形机器人不能弯腰捡起,那这个场景就做不到闭环,也无法完整替代一个人的工作。所以在今天,甚至未来3年内,除了对成本的考虑之外,我们认为人形机器人的下半身可以有其他的解决方案,及早实现全空间工作。”
根据上述思考,银河通用带来的一个解决方案——机器人下半身通过一个360度的全相移动底盘,和把两条腿并成一条腿,实现下蹲捡拾地下的物品。同时,机器人双臂较长,能摸到2.4m的高处。
王鹤表示,这样的设计成本,相对大多人形机器人的双腿来说,非常低廉。同时,其工作空间和移动范围可以达到人的水平。
“我们相信未来,当腿的价格可以慢慢逼近轮,同时如果腿能够实现稳定的下蹲、弯腰捡等技能,我们将迎来「全面人形」的切换时间点。而在目前,我们更关注机器人上半身能否完成泛化工作,且整体形态能否支持在场景中完全闭环的作业需求。”
二、数据
如今的机器人,也同样在以数据驱动,这也是与传统机器人之间最大的区别。但数据同样是当下通用机器人的一大挑战。
在数据采集方式上,王鹤以特斯拉机器人举例。他表示,Optimus把电池放进盒子里的动作数据,是依靠戴着VR眼镜看机械手采集数据。仅这一套动作,就需要出动40人的团队进行采集。
“这种数据采集的成本能否支持它落地的时候的利润?如果我们替代了一个工资5000元左右的人,但是一套动作的数据采集和神经网络的训练就耗费了几百万元,那这一商业模式是不是良性的?这是人形机器人落地最大的挑战。”
对此,银河通用认为,当下可以真正实现规模化量产的数据,就是合成数据。王鹤表示,只有合成数据才是真正的“想要什么就有什么,想要多少就有多少。”
他介绍称,通过合成数据,关于抓、握、拿等动作相关的标签,都可以通过计算提前得到,并将海量大数据还给机器人。这种方式才能实现真正泛化,并弱化数据采集成本。
在斯坦福大学读博士期间,王鹤及团队用了7年时间,利用合成数据克服了物理不一样、控制不一样和视觉感知不一样等问题。如今,他们完全靠合成数据,通过视觉闭环反馈,实现泛化操作的大迁移。
“从我们训练出来的效果看,对任意物体抓取已经形成了一定能力——对于透明物体来说,二维的传感器有泛化问题,三维传感器又看不见金属高光的物体,需要完全靠合成数据,进行千万场景、十亿抓取的大规模合成。今天真正银河通用已经达到了对包括半透明物体在内的任何材质的完全泛化。这也给了我们信心——靠合成数据具身智能能够完全0-1的突破。”
具身智能的Scaling law
据王鹤介绍,银河通用去年合成了100万的数据,今年落实得更彻底了,一口气合成了10亿。
他表示,有了这十亿规模的灵巧手抓取数据加持,不仅能实现各种形态透明、高光材质,以及各种随机堆叠物品的高稳定抓取,还能扩散模型,通过生成式大模型抓取各种各样的东西。
这也使王鹤观察到了具身智能的scaling law:当用10亿数据的时候,在仿真环境里进行测试,能够得到86%的成功率;但如果只用10万数据的话,只有58%的成功率。
“靠遥操什么时候能采到10亿?而今天我们站在10亿规模上,就可以做100亿、1000亿,这是银河通用最大的技术特色,完全在合成数据在真实世界实现了泛化。“
基于这样的合成数据基础,银河通用还训练了端到端的大模型。
目前端到端可达到的效果,也就是王鹤所说的“言出法随“——让机器人在陌生环境中根据指令行动,例如“直走到墙然后左转,一直走到门然后停下”等等,机器人都能明白,这就是图文动作大模型给予的泛化导航能力。
“这样的数据背后是上百万条合成的指令和机器人行走的轨迹,这如果只靠人工去采,什么时候能采出来?”
AI机器人应用前景
在王鹤演示的视频中,基于端到端大模型的机器人,能根据“把‘卡皮巴拉’放在金属杯子里”的指令,将河豚玩偶放进制定位置。
“这些能力我们目前超过了Google的RT2系列,因为后者不能做到放什么方向,只能放到位置上,而且Google是靠人力采集RT1的数据集,用17个月花费上千万美元进行的数据采集。”
对于这样的能力,王鹤描绘了一个应用场景——机器人在一排超市货架上自动进行场景认知,拍照,并自动完成三维语义的建图和位置理解。这样它不仅能辨别超市中的商品位置,名称类别,还能根据下单信息取来商品。
根据王鹤的预判,在具身智能基于合成数据,实现大小脑联合之后,即将走向2B和B2C的各种场景。
“相信未来一两年、两三年中,在生活当中将会看到银河通用带来的通用机器人具身系统赋能的机器人。”
热门跟贴