机器人的世界（二）——具身智能|thor|具身|动作|机器人的世界|真实世界

RobotWORLD

世界模型和具身智能

具身智能

讲完了世界模型，我们回到世界模型的重要参与者——机器人身上。

具身智能现在确实火得不行，在中国，具身机器人频繁在各类场合出现，在美国科技界的春晚GTC大会，老黄也再一次端出了他的宝贝GR00T，0帧起手，学人做事。诚然，从技术角度来看，这并不是一件非常困难的事情，但是这意味着超高的软硬件底层打通程度，从采集视频数据，到视频结构化，再到动作学习，动作仿真及调整，最终将动作执行出来，这一套流程看似复杂，实则一点也不简单，那么这篇文章的下半部分，我就从这里展开，简单讲解一下具身智能这个概念，比起满屏的“硅谷睡不着觉”，我相信这篇文章会更有价值。

具身机器人是一套“感知——决策——执行——反馈”的系统，这套逻辑也就是我们说的物理AI，如果按照功能来进行区分，分为感知系统，决策控制，执行系统，交互通信系统，以及机器人本体的结构和供能六个模块。其中感知系统负责输入各类信息，决策控制系统是机器人的大小脑，执行系统则是机器人的肌肉和神经，交互通信系统是机器人的嘴，当然都已经是机器人了，交流信息不一定要用嘴，也可以是直接发送无线信号。

一台机器人，它的智能系统应当分成两个部分。第一部分是基础智能。基础智能是出厂自带的，它包含了向上接入到世界模型的能力，基础的感知-决策-执行-反馈能力，和训练-记忆能力。第二部分是学习系统。学习系统是机器人在特定场景下，经过一段时间的磨合后能够正常运行的关键，学习系统是否优秀，是机器人看起来是否“聪明”的关键因素。

基础智能我们目前听得比较多，比如英伟达Thor为主体的机器人“大脑”作为机器人基础智能的硬件，而经过训练，有预制Skills的VLA模型作为机器人基础智能的软件。有了基础智能，机器人基本就可以完成类似于智驾L2级别的工作了，也就是可以在有一定自由度的空间里，完成固定任务。当然，L2级别用不上Thor这个级别的算力，这里就是举个例子。

而学习系统，就是GTC上让机器人0帧起手学人做事的那套系统，是真正的算力杀手，也是未来机器人公司们会长期死磕的一套系统，从Skills，到机器人操作系统，再到记忆系统，以及底层的硬件设备，都需要不停的优化和迭代。而且和自动驾驶不同，具身智能会把技术的差距拉得比较大比较明显，因为机器人做的事情大家都看得懂。

前段时间的OpenClaw小龙虾很火。我在一篇文章里说过，小龙虾就相当于个人PC上的一个机器人助手，所以小龙虾的Skills和记忆系统，和具身智能是相通的，所不同的是，机器人的新Skills得通过自己的大脑进行分析后习得，小龙虾则是用户自己上手教，机器人的记忆是一部分存在本地，另一部分和世界模型直接相连，而小龙虾则要简单一些。

机器人学习Skills是一个复杂的过程，首先，机器人需要进行模仿学习，在出厂之前，一般可以通过遥操来学习，比如今年春节晚会上表演机器人的很多动作都是通过遥操习得的，但是在出厂之后，就不太存在遥操学习的基础了，那么就得通过观测来进行学习，学习的过程也和小龙虾的Agent比较像，其中很重要的一步就是将任务拆解成可复用的原子动作，我个人比较喜欢叫它“符文之语”，因为这玩意顺序错了和动作错了都不行，再配合上力学反馈校正，就构成了模仿学习的基础；模仿学习完成之后，就需要进行强化学习，和出厂之前不同，出厂之后没有专业工程师实时调试，如何自行设置各种奖励函数是一件比较复杂的事情；最后，在学习完成后，具身智能设备需要将这一套流程接入进VLA模型，从此支持自然语言指令调用。

可能上面一大段有点抽象，我用比较通俗的话来重说一遍。假设我们需要机器人来摘个字——把墙上贴的三个字中间的那个字拿掉，人先做一遍，机器人在旁边采集人的动作，并且进行分析——第一步，举手，原子动作26#，第二步，抓取，原子动作27#，第三步，下拉，原子动作24#，第四步，手归位，原子动作14#，动作学习完成之后，机器人要自己上手，但是手举到多高，用多大力下拉，这些需要通过视觉和力学反馈进行实时校正，当机器人成功完成一次动作，那么这个动作将被机器人记住，以后人只要对机器人说“摘字”，机器人就会明白这句话的意思，并且找到要摘字的位置开始工作。

当然，这只是学习一个动作的过程，事实上，高智能等级的机器人并不是只需要完成一个个的动作就算合格的，它还需要接入到世界模型，真正理解这个世界，比如下达一个指令的时候，它需要先观察是否有实施这个指令的条件，让机器人倒水，如果桌上没有水杯怎么办。毕竟这个世界是一个连续的时间流，而不是一个个割裂的事件。

我们的具身智能，最终要落到一台台的机器人身上，而机器人是需要用户买单的，现在的机器人又笨又贵，那么如何让机器人变得又聪明又便宜，是机器人行业需要认真思考的问题。

首先，机器人需要专用的芯片，以及基于这套芯片，更适合机器人学习系统的一套软件栈。在没有这样的芯片之前，可以先使用现有的通用AI处理系统，或者使用FPGA，但是使用传统图形GPU并非长久之计，机器人不需要渲染呈现。目前市面上现有的各类芯片产品成本、功耗高，能效比低，确实会给机器人的设计带来很多麻烦。

其次，具身智能应当和空间智能以及其他智能控制系统深度融合，使其更符合人做事情的逻辑。机器人是可以记住结构化的事情的，而大多数场景下的机器人，比如家用机器人，面对的场景是固定化的，一个水龙头在这里，它会一直在这里，并不需要每一次都对其进行识别，一台联网的微波炉在这里，热个菜并不应该让机器人去按按钮，而应当通过鉴权的IOT指令直接执行，机器人可以学习人类，但不应当照搬人类的逻辑。

最后，机器人需要现有巨大的用量，才有脱胎换骨的机会。目前的用量，成本高企是必然的，没有机器人专用芯片也是必然的。想象一下，一款机器人大脑芯片研发花了十个亿，面世之后，还必须比Thor有性价比，如果单颗芯片毛利两千，则需要卖掉50万颗才能勉强保本，而目前一年卖掉的智能机器人只有50万的零头。所以我们还需要忍受好几年又笨又贵的机器人，而机器人真正的iPhone时刻，其实不会那么高光，而是会在沉默中发生。