RobotWORLD
机器人的世界(二)
世界模型和具身智能
具身智能
讲完了世界模型,我们回到世界模型的重要参与者——机器人身上。
具身智能现在确实火得不行,在中国,具身机器人频繁在各类场合出现,在美国科技界的春晚GTC大会,老黄也再一次端出了他的宝贝GR00T,0帧起手,学人做事。诚然,从技术角度来看,这并不是一件非常困难的事情,但是这意味着超高的软硬件底层打通程度,从采集视频数据,到视频结构化,再到动作学习,动作仿真及调整,最终将动作执行出来,这一套流程看似复杂,实则一点也不简单,那么这篇文章的下半部分,我就从这里展开,简单讲解一下具身智能这个概念,比起满屏的“硅谷睡不着觉”,我相信这篇文章会更有价值。
具身机器人是一套“感知——决策——执行——反馈”的系统,这套逻辑也就是我们说的物理AI,如果按照功能来进行区分,分为感知系统,决策控制,执行系统,交互通信系统,以及机器人本体的结构和供能六个模块。其中感知系统负责输入各类信息,决策控制系统是机器人的大小脑,执行系统则是机器人的肌肉和神经,交互通信系统是机器人的嘴,当然都已经是机器人了,交流信息不一定要用嘴,也可以是直接发送无线信号。
一台机器人,它的智能系统应当分成两个部分。第一部分是基础智能。基础智能是出厂自带的,它包含了向上接入到世界模型的能力,基础的感知-决策-执行-反馈能力,和训练-记忆能力。第二部分是学习系统。学习系统是机器人在特定场景下,经过一段时间的磨合后能够正常运行的关键,学习系统是否优秀,是机器人看起来是否“聪明”的关键因素。
基础智能我们目前听得比较多,比如英伟达Thor为主体的机器人“大脑”作为机器人基础智能的硬件,而经过训练,有预制Skills的VLA模型作为机器人基础智能的软件。有了基础智能,机器人基本就可以完成类似于智驾L2级别的工作了,也就是可以在有一定自由度的空间里,完成固定任务。当然,L2级别用不上Thor这个级别的算力,这里就是举个例子。
而学习系统,就是GTC上让机器人0帧起手学人做事的那套系统,是真正的算力杀手,也是未来机器人公司们会长期死磕的一套系统,从Skills,到机器人操作系统,再到记忆系统,以及底层的硬件设备,都需要不停的优化和迭代。而且和自动驾驶不同,具身智能会把技术的差距拉得比较大比较明显,因为机器人做的事情大家都看得懂。
前段时间的OpenClaw小龙虾很火。我在一篇文章里说过,小龙虾就相当于个人PC上的一个机器人助手,所以小龙虾的Skills和记忆系统,和具身智能是相通的,所不同的是,机器人的新Skills得通过自己的大脑进行分析后习得,小龙虾则是用户自己上手教,机器人的记忆是一部分存在本地,另一部分和世界模型直接相连,而小龙虾则要简单一些。
机器人学习Skills是一个复杂的过程,首先,机器人需要进行模仿学习,在出厂之前,一般可以通过遥操来学习,比如今年春节晚会上表演机器人的很多动作都是通过遥操习得的,但是在出厂之后,就不太存在遥操学习的基础了,那么就得通过观测来进行学习,学习的过程也和小龙虾的Agent比较像,其中很重要的一步就是将任务拆解成可复用的原子动作,我个人比较喜欢叫它“符文之语”,因为这玩意顺序错了和动作错了都不行,再配合上力学反馈校正,就构成了模仿学习的基础;模仿学习完成之后,就需要进行强化学习,和出厂之前不同,出厂之后没有专业工程师实时调试,如何自行设置各种奖励函数是一件比较复杂的事情;最后,在学习完成后,具身智能设备需要将这一套流程接入进VLA模型,从此支持自然语言指令调用。
可能上面一大段有点抽象,我用比较通俗的话来重说一遍。假设我们需要机器人来摘个字——把墙上贴的三个字中间的那个字拿掉,人先做一遍,机器人在旁边采集人的动作,并且进行分析——第一步,举手,原子动作26#,第二步,抓取,原子动作27#,第三步,下拉,原子动作24#,第四步,手归位,原子动作14#,动作学习完成之后,机器人要自己上手,但是手举到多高,用多大力下拉,这些需要通过视觉和力学反馈进行实时校正,当机器人成功完成一次动作,那么这个动作将被机器人记住,以后人只要对机器人说“摘字”,机器人就会明白这句话的意思,并且找到要摘字的位置开始工作。
当然,这只是学习一个动作的过程,事实上,高智能等级的机器人并不是只需要完成一个个的动作就算合格的,它还需要接入到世界模型,真正理解这个世界,比如下达一个指令的时候,它需要先观察是否有实施这个指令的条件,让机器人倒水,如果桌上没有水杯怎么办。毕竟这个世界是一个连续的时间流,而不是一个个割裂的事件。
我们的具身智能,最终要落到一台台的机器人身上,而机器人是需要用户买单的,现在的机器人又笨又贵,那么如何让机器人变得又聪明又便宜,是机器人行业需要认真思考的问题。
首先,机器人需要专用的芯片,以及基于这套芯片,更适合机器人学习系统的一套软件栈。在没有这样的芯片之前,可以先使用现有的通用AI处理系统,或者使用FPGA,但是使用传统图形GPU并非长久之计,机器人不需要渲染呈现。目前市面上现有的各类芯片产品成本、功耗高,能效比低,确实会给机器人的设计带来很多麻烦。
其次,具身智能应当和空间智能以及其他智能控制系统深度融合,使其更符合人做事情的逻辑。机器人是可以记住结构化的事情的,而大多数场景下的机器人,比如家用机器人,面对的场景是固定化的,一个水龙头在这里,它会一直在这里,并不需要每一次都对其进行识别,一台联网的微波炉在这里,热个菜并不应该让机器人去按按钮,而应当通过鉴权的IOT指令直接执行,机器人可以学习人类,但不应当照搬人类的逻辑。
最后,机器人需要现有巨大的用量,才有脱胎换骨的机会。目前的用量,成本高企是必然的,没有机器人专用芯片也是必然的。想象一下,一款机器人大脑芯片研发花了十个亿,面世之后,还必须比Thor有性价比,如果单颗芯片毛利两千,则需要卖掉50万颗才能勉强保本,而目前一年卖掉的智能机器人只有50万的零头。所以我们还需要忍受好几年又笨又贵的机器人,而机器人真正的iPhone时刻,其实不会那么高光,而是会在沉默中发生。
作者:铁云
欢迎关注铁云文摘
热门跟贴