关于人形机器人的应用潜力极限,对于很多人来讲,都没有一个准确的答案,技术迭代之快,远超我们的想象力。以往我们讨论人形机器人时,主要聚焦于核心部件的精确度、运动平稳性以及爆发力。然而,随着大型模型时代的崛起,让人形机器人拥有了简单思考能力。年初,Figure与OpenAI的合作再次验证了技术的可行性,而英伟达GTC大会所展示的“Project GR00T”则为人形机器人技术的持续进步与迭代注入了信心。

打开网易新闻 查看精彩图片

近日,又一款人形机器人视频在网络上意外走红。视频中,这款机器人与主人在厨房中进行流畅对话,通过理解主人喜好,搭配食材,并烹饪美食。同时,在工厂环境中,它也表现出了卓越的执行能力,无论是扫码包装、物流搬运,还是执行沾锡等工序,工厂内的脏活、累活及危险任务,这款人形机器人都能游刃有余地完成。上面出现的诸多场景,仿佛让我们置身于科幻电影当中。

打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

这款极具未来感的人形机器人来自乐聚(深圳)机器人技术有限公司。6月21日该机器人在华为HDC 2024开发者大会首度亮相,立即吸引了众多媒体的争相报道,一时间“华为人形机器人”话题冲上热搜,微博讨论数过万。尽管许多人误以为华为已开始自主研发人形机器人本体及其运动控制技术,并正式进军该领域,但事实上,这是华为与乐聚紧密合作,通过盘古大模型实现技术赋能,共同打造迈向通用场景的人形机器人。

打开网易新闻 查看精彩图片

在本次大会上,华为常务董事、华为云CEO张平安详细介绍了乐聚夸父人形机器人在搭载盘古具身智能大模型后,于工业和家庭场景中展现的强大泛化能力。除此之外,张平安还与该机器人进行了物体识别、问答交流和击掌等实时互动,这些展示引发了市场的广泛关注和热烈讨论。

▍盘古具身智能大模型赋能夸父人形机器人显著提升场景应用的泛化能力

此次亮相HDC 2024的夸父人形机器人,系华为云与乐聚机器人战略合作以来取得的阶段性成果,通过盘古具身智能大模型使得人形机器人在智能化、泛化能力上得到了显著提升。

打开网易新闻 查看精彩图片

目前已经实现人形机器人小样本下的泛化操作,在工业、家庭场景中展开测试,这一研究进展标志着人形机器人泛化能力显著提升,并打通了人形机器人通往AGI道路的最后一公里。

自2024年3月华为云与乐聚机器人达成战略合作后,双方针对“盘古具身智能大模型+夸父人形机器人”技术路线进行了深入探讨和论证。并在4月,通过拟定家庭、工业等场景中示范应用案例孵化为探索目标展开了集智攻关。目前,已成功打通了人形机器人从数据收集到云端训练,再到部署推理的整套工作流程,形成了一条完整的工具链。

打开网易新闻 查看精彩图片

目前,双方正基于华为云的算力和AI能力,赋能人形机器人大脑,同时基于乐聚本体设计和运动控制能力,对机器人小脑和肢体的研发工作展开持续攻关。双方的目标是开发出一系列高效的pipeline,打造出可复制且广泛适用的人形机器人产品及具身智能整体解决方案,并共同构建人形机器人的标准数据集、系统和工具链。

▍机器人高性能本体+多模态大模型+行为数字化 推动AGI技术落地

“机器人高性能本体+多模态大模型+行为数字化”能够有效实现人的技能数字化与知识迁移,从而使机器人通过少量数据快速实现工业家庭等场景下的泛化操作。人形机器人是人工智能改造客观物理世界的载体,多模态大模型则提升了机器人在复杂场景下的泛化能力,构成其智能化的核心。行为数字化是链接人形机器人和人工智能从虚拟走向现实的桥梁。

打开网易新闻 查看精彩图片

在具身智能领域,大模型承担着三项核心职能:理解语意并进行判断规划、作为“老师”展示神经网络的规模效应,以及产生新的具身智能算法,如VLA(Vision Language Action),通过原生多模态大模型训练视觉、语言和动作。盘古大模型5.0基于可扩展的Diffusion Transformer架构,有效解决了动作多样性问题,并利用大规模开源数据集和仿真环境数据进行自监督预训练,对真实数据进行图像物体和背景增强,在新任务下实现高效微调,确保双臂协同和多任务并发处理的泛化能力。

人形机器人作为人工智能改造物理世界的载体,其高动态稳定运作的身躯、自适应控制的小脑构成了其坚实的本体,为大模型能够精准控制和执行指定任务提供基础,让人工智能接触物理世界成为必要可能。

打开网易新闻 查看精彩图片

行为数字化通过将机器人的行为轨迹数字化,为大模型的推演和学习提供了丰富的数据集,使得人工智能大脑能够熟悉机器人身体,并在发送指令后,确保机器人能够精确执行任务。这一系统的协作,最终使得机器人能够更高效地在现实世界中完成复杂的任务。

机器人高性能本体、多模态大模型和行为数字化共同推动了从虚拟走向现实的进程。通过这三者的结合,将人的技能数字化,并实现知识迁移,使机器人能够通过少量数据快速适应工业和家庭等多种场景的操作。

▍人形机器人“局点”已至 加速从“实验室”迈向真实“工厂、家庭”场景

当前,尽管工业机器人技术已相当成熟,但在应对柔性生产需求和泛化性问题时仍存在显局限。相比之下,人形机器人凭借其在工业制造、商业服务和家庭养老等多个场景中的智能化应用,展现出其独特的"通用+智能"核心价值,这正是其与传统工业机器人的主要区别。

打开网易新闻 查看精彩图片

此次华为云与乐聚的合作围绕“盘古具身智能大模型+人形机器人”,在特种、制造业、家庭典型场景下机器人泛化能力的提升进行了市场调研、测试开发和场景验证,为打造迈向通用场景的人形机器人展开了联合创新。

打开网易新闻 查看精彩图片

在特种、制造场景下,华为云与乐聚团队深入一线场景调研,了解到苏州亨通线缆设备有限公司存在招工用工难、非标工序自动化难,部分危险场景安全隐患等业务痛点。比如,线束车间每年生产线缆种类达几千款,产品需求、工序流程、生产数量复杂多样无法实现标准化。在电测、沾锡、灌锡等场景下存在安全隐患的情况。作为线缆行业的领军企业,亨通期望在现有基础上,进一步推动工厂向现代化、智能化车间的转型升级改造。

打开网易新闻 查看精彩图片

针对以上需求,双方进行了技术可行性分析,定义了整体产品形态、任务指标和行动计划,以扫码包装、物流搬运、沾锡工序等作为典型场景进行验证。

在家庭场景方面,华为云与乐聚团队以炒菜、扫地等生活中常见的家务为典型案例,联动智能家居设备进行配合完成任务。以自动炒菜任务为例,盘古具身智能大模型为人形机器人与自动炒菜机赋能,让设备间能够拥有共同的大脑。在盘古具身智能大模型具身Agent框架下,机器人可以自主完成从场景理解、自然语言指令识别、任务规划的具身规划,到双臂协同、自主执行、可泛化操作的具身执行的全流程任务。

打开网易新闻 查看精彩图片

乐聚机器人副总裁柯真东表示:“通过‘大模型+人形机器人’的融合,机器人具备了自然语言和视觉/触觉的多模态交互能力、适应多场景的泛化能力,这是之前所不能想也做不到的事。华为云与乐聚此次基于工业、家庭典型真实场景的探索,对人形机器人推进到场景应用现实意义非常大,上半年乐聚一直在埋头推进机器人进入到生产生活场景应用,协同生态链合作伙伴真正推动行业规模化产业化落地。这其中除了乐聚自身产品技术不断更新迭代之外,强强联合的技术团队,强需求强适配度的场景都是推动乐聚小步快跑的关键因素”。

▍结语与未来:

当前,人形机器人产业化落地不断加速,但更多的人形机器人仅面向汽车制造、物流分拣等单一结构化场景。其本质上,在于人形机器人样本量数据不足,难以满足非结构化环境的任务需要。乐聚夸父通过携手华为云,利用盘古具身智能大模型,有效提升泛化能力,打通了人形机器人通往AGI道路的最后一公里,使其能够在工厂、家庭场景中,承担更重要的角色。

打开网易新闻 查看精彩图片

当前,夸父人形机器人已在高校科研、交通劝导、展厅导览、家庭服务等场景中陆续上岗实习,此次与华为云联创在工业、家庭场景的尝试标志着机器人未来有在多场景完成多任务的潜力。

乐聚机器人副总裁柯真东表示:未来乐聚机器人将携手“人形机器人+”生态合作伙伴,致力于关键核心技术的攻关和产品创新,打造“像家电一样便宜,像博士一样聪明”的人形机器人产品。通过建立行业标准化解决方案,推动人形机器人迈向通用化,让人形机器人真正服务于千行万业,便利于人类生产生活