成都人形机器人创新中心近日发布了中国首个基于视觉扩散架构的人形机器人任务生成式模型R-DDPRM(Raydiculous-Denoise Diffusion Probabilistic Robot Model),有媒体认为该模型领跑国内一众人形机器人大模型。

▍内核与优势解读

据介绍,目前业界的人形机器人任务生成式模型主要基于VAE、AC Transformer、LSTM等扩散架构,大家所熟知的文生视频模型OpenAI SORA、SVD,文生图模型SD,OpenAI Dall-E等业界知名模型,就是基于扩散架构的图像、语言等垂直模型,这些模型往往都拥有强大的理解、推理和生成泛化能力。

打开网易新闻 查看精彩图片

但采用这类架构下的人形机器人,通常在规划动作时需要考虑单一约束类型,例如物体抓持稳定性或规避障碍物路径规划,这就需要针对每种细分情况都要对应开发和执行一系列单独的垂直模型(并联线性),遇到执行问题需要局部调整试错来缓慢推进任务进程,推理效率低、执行速度慢且大量消耗算力。

DDPRM该模型的创新之处在于从扩散架构的底层逻辑应用于人形机器人核心技术研发,基于正向扩散阶段和反向扩散阶段的深层生成模型,重构了人形机器人底层架构。这有点类似清华大学U-ViT模型将视觉Transformer(ViT)与U-Net结构结合,借助去噪扩散概率模型(DDPMs)、噪声条件评分网络(NCSNs)等用于图像生成模拟与确定,通常结合卷积神经网络(CNN)以生成新的数据样本并优化图像生成的质量和效率,用于机器人任务决策。

这种架构模型能够让人形机器人跨越多个约束进行泛化,即能够更快速处理各种复杂任务。这种能力使得人形机器人在面对多样化的环境和任务时,能够表现出更高的适应性和灵活性,充分释放人形机器人的决策技能,使其在操纵和泛化方面达到前所未有的高度,创造真正的人形机器人“大脑”——能够毫不犹豫“丝滑”地处理各种复杂任务。目前全球范围内仅特斯拉、麻省理工+哥伦比亚大学联合团队等人形机器人国际顶尖团队发布相关阶段性成果。

具体来说,扩散架构的应用使得人形机器人能够具备同时确定拿起物体的最佳抓持位姿、移动物体最佳路线、能耗最少最佳等多要素全局规划思维能力,使得人形机器人在处理复杂场景任务时表现出更强的灵活性,这种全局规划思维使得人形机器人在面对复杂任务时,例如从整理房间到复杂外科手术等各种复杂任务,人形机器人能够迅速做出决策,提高任务执行的成功率和效率,而且随着计算能力的提升,可以应用于更复杂、更高质量的图像生成任务,并能够越来越自主流畅。

打开网易新闻 查看精彩图片

同时,更值得一提的是,通过采用扩散架构,人形机器人对算力的依赖度大大降低。DDPRM 算力依赖度几何级降低,理论上中等消费级显卡在端上即可完成人形机器人绝大部分任务,对于芯片的要求指数级下降,大大降低了硬件成本,但任务生成式模型具有更加稳定、任务执行成功率大幅提升、决策更敏捷、处理复杂场景任务的能力更强,有望极大提升人形机器人的任务执行能力和效率,降低算力和能耗成本,使得人形机器人的普及和商业化应用成为可能。

虽然扩散架构在一定程度上提高了人形机器人对环境变化的响应速度,但相比于一些其他架构(如包容式架构),其技术成熟度相对较低,不仅面临计算负担和推理过程时间效率的问题,而且高动态环境下图像的生成与重建响应速度可能仍然有限,一旦出现问题也需要在软件开发和维护方面投入更多的资源。这可能会影响人形机器人最终在一些需要快速响应的场合下的表现,需要对软件进行持续的更新和优化,以确保其能够适应各种环境和任务,但这种模型框架无疑是将计算机视觉领域与人形机器人领域结合的一种新尝试。

▍背后团队与实力

在以ChatGPT为代表的大模型赋能下,人形机器人在环境理解、智能交互、行动控制等方面正在显著突破,加速其通用化和智能化进程。成都试图抢占人形机器人与人工智能的新高地,今年,“人工智能+”首次被写入成都市政府工作报告,四川省将人工智能列为1号创新工程。近日,成都市又出台了“算力10条”,完成人工智能“数据、算力、算法”全要素政策体系构建。

4月11日,四川省人工智能学院挂牌成立,该学院以电子科技大学为牵头单位,开始整合科研院所、知名企业等优质资源。来自成都市经信局市新经济委的数据显示,2023年,成都市共有人工智能企业852家,产业规模达780.3亿元,增速26.7%,近3年年复合增长率达40%以上。

打开网易新闻 查看精彩图片

成都人形机器人创新中心是成都押注人形机器人与人工智能的重要举措,中西部地区首个人形机器人创新中心,位于成都科创生态岛,是四川省人工智能一号创新工程的首个原点项目。成都科创生态岛人工智能与机器人产业特色楼宇6月27日正式揭牌,计划将加快聚集一批算力、算法、核心零部件和机器人整机企业入驻。

成都科创生态岛位于的天府新区,目前已经引进了海康威视、科大讯飞等链主企业,中科曙光、达梦数据等基础软硬件研发企业,自主培育了晓多科技、见山科技等行业应用企业,睿乐达、布法罗等机器人整机企业。晓多科技、海艺互娱、明途科技3家大模型企业完成人工智能服务备案。备案成功意味着企业的大模型符合国家关于生成式人工智能服务的相关规定和标准,是其技术创新和合规性的重要证明。

目前,天府浪潮云、成都人形机器人创新中心、布法罗、晓多科技、明途科技等企业已经签署意向入驻协议,同时正式发布总规模20亿元的华泰天府人工智能数智产业基金,将重点投向人工智能、智能芯片、具身智能等领域。

成都人形机器人创新中心有限公司负责人张睿睿也是成都睿乐达机器人有限公司董事长,2017年,张睿睿回国参加中国深圳创新创业大赛(深创赛),获得总冠军,在国内机器人行业崭露头角。随后,他选择回到家乡成都,创立了成都睿乐达机器人科技有限公司。

张睿睿本科和硕士都读的机械工程,博士阶段留学海外:2004年到英国伦敦大学国王学院,师从国际机器人学、机构学领域专家,英国皇家工程学院及欧洲科学院院士戴建生。求学期间,他在当地创立自己的科技公司,申请了40余项专利,获得过德国红点工业设计大奖。博士毕业后,张睿睿在英国工作多年,成为一家欧洲500强企业的联合创始人。

打开网易新闻 查看精彩图片

从2023年下半年,张睿睿在省市的各种交流活动上,开始筹备成立事宜,他表示目前全球和国内对于人形机器人、人工智能的竞争态势已经“白热化”,他多次呼吁四川要加快进度,努力追上北京、上海、深圳等城市的步伐。

成都人形机器人创新中心作为中西部地区第一个人形机器人新型研发机构成立后,就开始对标北京、上海、深圳、杭州等城市,致力于助力四川及成都打造人形机器人产业发展高地,目前已经展现出一期成果。张睿睿介绍,创新中心将推出3个产品:一是人形机器人整机产品,包括双足机器人、轮式机器人等,主要面向家庭场景,二是硬件和软件的母平台,三是相关数据服务。

▍结语与未来

近日,国家发展改革委等部门印发《关于打造消费新场景培育消费新增长点的措施》的通知。其中提出,加大柔性屏、超级摄影、超级快充、人工智能助手、端侧大模型、跨屏跨端互联等软硬件功能开发,增强人机交互便利性。拓展智能机器人在清洁、娱乐休闲、养老助残护理、教育培训等方面功能,探索开发基于人工智能大模型的人形机器人。

创新中心已经集聚了一批国内外人形机器人领域的知名专家,核心团队具备卓越竞争力。同时张睿睿也在抓紧招募更多人才,其中有很多是他当年在英国留学时期的师兄师弟。张睿睿表示,与以往工业机器人执行固定程序不一样,人形机器人是由大脑、小脑和肢体三个部分组成,具备思考能力,能够处理复杂情景下的任务,堪称人工智能、高端制造、新材料等先进技术的“集大成者”,产业前景广阔,风口必须抓住,而人才又是其中的关键。

张睿睿介绍,接下来创新中心还将要在人形机器人电子皮肤、高精度导航和避障、逻辑推理与感知、灵巧手足以及驱动系统垂直模型等方面展开核心攻关,通过加强研发,争取在一年甚至更短的时间内,能够有初步的成果面市。目前,创新中心在感知与识别、高动态运动规划、高精度电子皮肤、语义理解及推理四个大方向,取得了八个细分领域的全球领先水平,预计今年将推出样机。

对于这股中部崛起的力量,机器人行业值得关注和期待。