ROBOT INDUSTRY
2025年初,“科技春晚”美国消费电子展 CES 2025如约开幕。芯片巨头英伟达创始人黄仁勋发布了多个新产品,其中包括首个生成式世界基础模型Cosmos。在演讲现场,他公开展示了14款全球领先的人形机器人产品。作为其中唯一一台以轮式底座为移动方式的人形机器人,来自北京银河通用机器人有限公司的Galbot G1赫然登场,举起英伟达新一代RTX5090显卡。那么,黄仁勋为何青睐这家成立不到两年的公司?
“通用”是市面上大多数人形机器人研发商为之努力的方向,也是北京银河通用机器人有限公司(以下简称“银河通用”)的研发愿景。其原因,一是人形机器人有快速部署的特点,能快速融入工作场景而无需增加特殊配置;二是使用门槛低,通过语音和文字指令布置任务,抛弃了传统的轨迹重放等作业方式。不过,当前技术水平仍不支持“通用”人形机器人大规模落地,仍需从细微场景入手,以小见大,补足通用场景提出的能力清单。
在银河通用创始人、CTO王鹤博士的带领下,银河通用研发团队以端到端具身多模态大模型补足人形机器人“脑力”空白,在国际范围内首次实现了成功率在95%以上抓取随机堆放、从未见过的透明、高光等物体,甚至已进一步掌握类似开柜子、开抽屉、晾衣服等泛化操作技能。银河通用与北大和北京智源人工智能研究院(BAAI)分别成立了具身智能联合实验室和研究中心,与合作伙伴深度探索零售场景技能闭环,并开发未来机器人在工业、物流、康养等方向的技能,共同赋能机器人又稳又好地迈入实际场景应用。
1
模拟数据填平“通用”与现实之间的鸿沟
具身智能指用具象化的身体与真实物理世界交互。高水平训练数据的缺乏,直接限制了人形机器人的泛化性和通用性,大部分只能在局限的环境下,面对特定对象,以固有的操作方式完成专用任务,严重不适配真实物理世界随机性的特征。因此,在高质量训练数据和训练方法面世之前,人形机器人实现规模商业化有很大难度。
银河通用产品总监朱辉以三个案例来概括国内外数据收集现状。一是特斯拉数据中心招募工人重复做出放置电池的动作,通过头戴VR眼镜为Optimus收集数据,该方法只适用于固定的操作动作,当抓取对象发生改变时,抓取成功率骤降;二是斯坦福大学使用主从臂采集数据,训练ALOHA做滑蛋虾仁,但只适用于类似格局的厨房,当房间条件如灶台高度发生改变,操作成功率骤降;三是字节跳动团队GR-2使用学术公开数据集中的3800万个互联网视频片段进行生成式训练,取得不俗的表现,但和真实世界相比,公开数据集中的动作数据的规模和多样性仍然有限,并不足以使得机器人学到多种技能。可以看出,基于现实环境和直接使用数据集的训练方式都有欠缺之处。这三个案例都是通过收集现实数据来训练模型,从而使模型运行出来的的结果符合真实物理世界,并使得模型具有预测动作轨迹的能力。
图1 Galbot在银河通用前台迎宾
近年来,仿真技术普遍地应用到学术研究中,银河通用团队在计算机中模拟出了仿真物理环境,用计算机模拟运行,在仿真环境中一秒钟可以生成超万条级别的仿真数据,大大降低数据成本,提高模型训练效率。2025年年初,银河通用联合北京智源人工智能研究院及北京大学和香港大学得研究人员,发布全球首个全面泛化的端到端具身抓取基础大模型GraspVLA,为解决具身大模型训练过程中的数据困难和泛化困难提供了可行的解题思路。同时,团队提出VLA(Vision Language Action,视觉-语言-动作模型)达到基础模型需满足的七大泛化金标准:光照泛化、背景泛化、平面位置泛化、空间高度泛化、闭环能力、动态干扰泛化,以及物体类别泛化。此外,GraspVLA还可以使用一人天的数据体量,快速训练GraspVLA理解新需求、新名词。
在复刻环境数据时,先把真实世界映射到摄影画面中,再渲染为机器人大脑能理解的3D环境。深度相机可以测量物体到相机的距离,用于三维重建、目标定位、识别等应用领域,受环境光变化影响,机器人看到的物体颜色和形态可能会发生改变,尤其是透明高光物体,影响机器人的识别和判断。银河通用在咖啡厅、便利店、生产车间、KTV、关灯的房间等真实工作环境中测试,机器人抓取成功率居高不下。
银河通用产品总监朱辉表示,目前公司团队约有百余人,分工明确,一直保持着较高的创新活性,机器人性能上的迭代以周为单位。机器人在部分真实场景走向深度应用,产生出大量有参考价值的数据,又进一步推动了模型训练和技术迭代。
2
Galbot的展会实践
大模型有先验知识,能够理解环境,实现环境图像的智能分割。早在2024北京智源大会上,机器人就可以通过认真观察货架的信息,构建出货架在虚拟世界中的映射,再渲染货品包装等细节。“完全不需要对接数据库人为地输送数据,展会前一天让机器人花费少量时间自主学习场地环境,展会当天开机就能用上,移动底座的设计也使机器人的续航能力延长至6~8小时,机器人可以长时间维持演示状态,吸引了大量观众驻足。”朱辉说道。
2024世界机器人大会(WRC)上,银河通用机器人Galbot被围观群众“出难题”,拿了很多不带标签的透明矿泉水瓶摆在桌面上,机器人都能够一一抓取。不少观众在现场见到机器人缓慢的思考和执行速度时,纷纷质疑其实现应用的可能性。朱辉表示,出于安全防护的考虑,大会上所展示的机器人速度被刻意放缓,而实际的抓取速度已经达到展示速度的3~4倍。
朱辉介绍到,公司成立之初因研发精力有限,Galbot只能使用购买来的国产灵巧手,此后,公司自主研发了一款兼顾轻量化设计和复杂功能的灵巧手,将在今年展会公开亮相时展示。“在日复一日大数据加持的交互学习中,具身大模型机器人训练出决策的‘大脑’和执行的‘小脑’,指挥日渐灵巧的‘手’,机器人能够独立完成越来越多的工作。”朱辉谈道。
图2 Galbot抓起随机打碎的玻璃杯
在2024云栖大会上,Galbot每天工作8小时,在连续3~4天的真机工作展示中,它共服务了900多位观众,取送了超千件商品,取送的商品数几乎可以补满8个云栖大会现场摆放商品的货架。无独有偶,银河通用在2024年9月闪耀亮相服贸会,与其合作伙伴搭建药房场景,机器人在其中不间断地完成着补货、点货、取货任务。
3
Galbot的落地方向和落地进度
王鹤博士表示,当前人形机器人技术已达到产业化的边界,当前主要任务是将端到端大模型能力迁移到人形机器人上。未来五年,人形机器人有望在商业和工厂等场景中实现规模达万台的应用,十年后有望进入家庭生活场景。
银河通用已与合作伙伴签署战略合作协议,将在线下零售、智慧货仓、智慧物流等多个领域围绕机器人赋能服务展开全面、深入的合作,以科技创新服务社会,帮助实体药房等提质升级,以数字化解决方案实现“把世界送到消费者手中”。
图3 Galbot正在叠衣物
近两年,银河通用主要训练Galbot在零售场景的“通用”能力,打造药房零售场景下的无人值守闭环。朱辉谈道,Galbot将首先在北京的某些药房中实现应用,如今人们在手机上买到的商品,就有可能是由人形机器人分拣、配送的。
据圆周智行不完全统计,2024年,我国人形机器人行业共发生71起融资事件,融资总额将近70亿元,单笔融资达亿级的有26起。其中,银河通用一举聚齐了北京、上海、深圳、香港四地政府背景基金,承接这四地发展人形机器人产业的迫切心情。
图4 Galbot在药房零售场景应用
2025年是银河通用人形机器人量产元年,朱辉表示,人形机器人产量达到千台后,将迎来成本的进一步下滑,并加速进入餐饮、物流、康养、医院、写字楼等应用场景发光发热。
阅读更多内容,欢迎订购《机器人产业》杂志。
点击跳转!圈内人都在看的专家观点
热门跟贴