云栖十问人形机器人：具身智能如何创造“图灵时刻”？|云栖十问|人工智能|人形机器人|图灵时刻|本体|高飞

作者 | 金旺

来源 | 科技行者

2024年，全球科技目光领聚焦到了两个关键词上：一曰大模型，二曰人形机器人。

大模型掀起了新一轮全球人工智能革命，人形机器人则借力大模型这个催化剂，开始向产业落地方向大踏步前进，创造看得见，更摸得着的具身智能。

作为一年一度的全球科技盛会，9月19日，阿里云栖大会再度开幕，回应了这个技术主旋律。

与往届云栖大会相同的是，今年的云栖大会依据聚焦前沿科技、产业落地，不仅将大模型、人形机器人等明星产品邀请到了现场，还为现场观众设置了一系列互动环节；

与往届云栖大会不同的是，在今年云栖大会主论坛上，阿里特别设置了大模型、自动驾驶、人形机器人三场巅峰对话，邀请相关领域知名学者、科学家现场研讨前沿技术命题。

这其中，尤以作为压轴的人形机器人对话——《人形机器人的“图灵时刻”》最受关注。

本场对话邀请到了清华大学交叉信息研究院助理教授、星动纪元创始人陈建宇，北京大学助理教授、北大-银河通用具身智能联合实验室主任、智源学者王鹤，宇树科技创始人、CEO王兴兴，逐际动力创始人张巍四位明星创业者，由至顶科技CEO兼总编辑高飞主持。

圆桌上的十个提问和回答，不仅可以看作是人形机器人创业者们的心路历程，也是半个世纪人形机器人产业发展的阶段性总结。

从左至右依次为：至顶科技CEO兼总编辑高飞，星动纪元创始人陈建宇，北京大学助理教授、北大-银河通用具身智能联合实验室主任、智源学者王鹤，宇树科技创始人兼CEO王兴兴，逐际动力创始人张巍

问初心：为什么是人形机器人？

人类对于人形机器人的探索可以追溯到半个世纪之前，早稻田大学1972年研发的WABOT被视为人类探索人形机器人的开端，这之后，行业中也曾出现过本田ASIMO、波士顿动力Atlas这样惊世艳俗的产品。

作为最适合应用于本就为人类设定的各种工作、生活场景中的产品形态，人形机器人不仅仅是人类科学家的执念。

提问一：王兴兴作为机器人创业者，一开始反对做人形机器人，后来又坚决做人形机器人，是什么让他改变态度？

王兴兴：几年前有投资人问我做不做人形机器人，我是坚决反对的，原因很简单，我在大学的时候做过一个小型的人形机器人，当时发现，以当时的技术无法驾驭这么复杂的机器人系统，所以我们没有做人形机器人。

自2016年开始，人工智能技术得到了飞速发展，到2022年时，AI模型的效果已经非常惊艳，这样的技术发展远超我自己的预计，所以我们在2023年年初开始涉足人形机器人领域。

虽然我们公司做人形机器人起步相对较晚，但到现在差不多一年半的时间，我们已经发布过两款人形机器人，目前取得的成果还是非常惊艳的，在机器人领域我们一直在按照自己的发展节奏走。

提问二：逐际动力将自己定义为通用机器人公司，为什么通用机器人一定要做成人形？

张巍：我认为一定要做成人形，而且是有两条腿的人形机器人，我对这件事的理解是，首先机器人和AI的使命是不同的，AI代替人来思考决策，机器人本质上要代替人类运动，所以它必须要能动。

大家看到的机器人种类很多，这些机器人本质在做两件事：

第一，移动，空间中从A到B；

第二，操作。

所谓的通用机器人，就是要在这两个能力上都达到和人一样的环境适应和任务泛化两大能力。

通用移动能力其实不太需要双臂，只要能从A移动到B就可以，但是通用的操作能力反而是需要双腿的，否则机器人将无法到达人类能到达的地方去干活。

当下AGI的发展相较于上一代AI技术最大的区别是从专用到通用的变化，大模型出现之前，通用感觉是个贬义词，一说通用证明它什么都能干，却没什么用。

但是大模型出现后，大家发现，像之前我们这种在专业领域收数据、做专项任务训练的方式有很大的局限性，反而我们要忽略解决专项任务的能力，要先构建一个通用的基础模型，再基于此长出专用能力，这才是系统化解决泛化性的关键。

我认为，软件算法的通用性靠大模型技术，机器人和物理世界交互的通用性需要靠人性机器人，这也是我们公司关注的方向。

提问三：银河通用的机器人除了有腿形态的，还有轮式的，什么形态的机器人符合人形机器人的定义？

王鹤：我们公司叫银河通用，从公司成立第一天我们的目标就是要实现通用机器人，当然，通用有一个发展过程，首先是要做到单一场景多任务可移动，其次要做到多场景多任务，最后要做到全场景、几乎全任务。

在这个过程中，不同阶段也有它最适合、最经济、最稳定的载体，当下人形机器人或者说通用机器人，我们选择了先从几个场景里的多任务做起，例如零售商超场景的上货下货、工厂里抱箱子。

在这些场景中，我们发现如果场景是平地的话，轮子是够用的，也不能说我们没有腿，我们是把两条腿并在了一起——在360°可旋转轮盘上，我们两只腿并在一起，它可以跪下来，这样机器人的手就可以碰到地面、捡地面上的东西。

为什么要双手？

因为我们发现在诸如抱箱子你要两只手，你在超市里买东西是一只手拿篮子，一只手拿货，也是要两只手，所以我们的形态目前是360°轮式底盘+双腿并成一条腿，1.73m-2.4m，蹲下来可以摸地，用最便宜的价格、最稳定的机器人技术，率先实现商用落地。

提问四：具身智能和人形机器人，很多人将它们视作一个概念，如何有一个清晰的划分？

陈建宇：虽然这两个词非常接近，但是他们的侧重点还是不相同的。

具身智能主要是关注我们智能和软件层面的技术，它对形态要求不高，可以是人形，也可以是四足，甚至轮式底盘+机械臂，它是一个广泛的概念。

人形机器人将机器人形态限定在了人形，它不仅仅要研究人形机器人的具身智能怎么做，同时也需要研究它的本体怎么做，这里面有很多挑战。

我们星动纪元非常重视具身智能和人形机器人两个领域，其实也代表我们非常重视软件和硬件的协同一体发展。

对于人类而言，人脑和身体是不可分割的，我们认为机器人的软件和硬件也需要协同发展。

问门道：人形机器人难在哪里？

波士顿动力Atlas在过去很长一段时间里，都被视为人形机器人领域明星般的存在，跑酷、跳远、后空翻，种种拟人行为，让波士顿动力运动能力让世人咂舌。

运动能力超强，但却迟迟无法走出“屏幕”，直到波士顿动力向外界公布执行运动任务的一系列失败视频，大家才发现，原来波士顿动力丝滑运动视频拍摄背后，是难向世人道的艰辛。

那么，人形机器人究竟难在哪里？

人形机器人的展示也人人都喜欢看，但是到底应该看哪个部位，哪种动作，才能判断其中的技术含金量？

提问五：现在人形机器人很多，展示也很多，普通人如何学会一眼鉴别这些人形机器人的技术含量？

陈建宇：人形机器人相关技术可以分成三部分：大脑、小脑和本体，相对而言，我认为对于人形机器人最关键的是小脑，因为它是承接大脑的思考，是规划和调用硬件本体，是真正帮助我们到物理世界里干活的的基础。

另外，我认为人形机器人的小脑相对其它两个部分反而是最薄弱的，技术的不确定性最高，也最没有收敛。

本体虽然也很难，但其中诸如芯片如何做，已经有诸如机器人、电动汽车等产业发展可以借鉴，对于大脑而言，我们现在也已经有强大的大语言模型技术，但对于小脑，我们发现大部分机器人现在用的还是十几年前，甚至几十年前的技术。

至于如何鉴别，我觉得非常重要的行走的泛化性，当你在它演示过程中“捣乱”，它行走的时候你踹它一脚，抓取的时候，你突然把这个东西拿开，看它是否能够稳定、智能地适应环境并完成相应任务。

王鹤：我们最关心的是机器人上半身——手眼脑的协调，这其中有大脑，有小脑，有对本体的控制。

我们的机器人首先有泛化抓取能力，这非常体现具身智能的泛化能力，因为泛无论是透明的、高光的、吸光的各种材质的物体，我们的机器人都能抓取，诸如抱箱子、拿药盒全都是靠视觉引导的泛化。

与大脑耦合时，在完全没见过的环境里，我们用宇树的机器狗做了DEMO，我们的导航可以基于视频输入，在零代码部署下进行导航行走。

这是我认为人形机器人技术含金量最高的两个地方。

王兴兴：我个人希望到明年人形机器人可以做非常复杂的全身运动类表演。

我们现在虽然也做了一部分的这样工作，但目前大部分动作还是单独训练，而且每次训练还是挺花时间和人力的，如果能够给人形机器人看一个视频或者一个简单的演示，它就能学会一个动作，这会让人形机器人的表演能力发生一个翻天覆地的变化。

另外我们依然希望有更好的操作能力，无论是操作简单的桌面整理，还是做复杂的生产装配，甚至更复杂的推理任务，操作能力会得到极大的提升，从而真正让人形机器人解决大部分手臂操作任务。

张巍：我认为人形机器人的门道看两个关键能力，一是泛化，二是通用。

人形机器人之所以被视为一个新物种，而不是传统机械臂的延续，本质就是要长出两条腿，腿也是机器人实现通用能力的基础。

机器人的腿主要看两点，一个是有是否已经完成了诸如复杂地形行走这样本应该由腿足实现的功能；二是能否支撑双臂完成全身协同的通用操作。

问突破：大模型让人形机器人觉醒

2022年9月，特斯拉Optimus全球首秀，掀起了如今这波人形机器人热潮。

不过，真正将人形机器人这波浪潮推向高潮的，还有另一个关键因素——2022年11月ChatGPT的发布。

人工智能技术的再突破，大模型范式的兴起，尤其多模态大模型能力的不断提升，让人形机器人的泛化性得以大幅长进，正是有了这样的时代机遇，国内人形机器人赛道一时涌入了上百个团队。

人形机器人的百团大战，因大模型再度开打。

提问六：云栖大会今年的主旋律是大模型，特别提出要超越屏幕里的AI，接引物理世界的AI，那么大模型对机器人的发展起到了怎样的作用？

张巍：我觉得机器人这一波发展不是自我革命，而是AGI发展为机器人产业带来了革命，我甚至认为具身智能将会是多模态大模型的一个杀手级应用，当然我把无人驾驶也算在具身智能和机器人赛道中。

由于受到大模型技术发展的启发，机器人领域的发展也经历了从规则驱动到算法驱动、再到数据驱动的一个蜕变。

之前是看你有什么算法，然后根据算法的需求收集数据来解决问题，现在的思维变成了首先看你有什么数据、有多少数据，你获取新数据的方式和成本如何，这些数据的质量分布是什么样的，这直接决定了你采用什么样的算法、如何去训练。

所以我们公司有一个口号：软件定义硬件，但数据定义软件。

王兴兴：通用人形机器人是目前大模型落地最好的载体，而且可以解决大模型目前落地场景问题，所以我认为二者是一个很好的组合关系。

王鹤：我觉得现在通用机器人虽然有一些技能，但几乎都是一些分立的小模型，所以大模型赋能机器人技能分几步：

第一步，大模型可以作为一个智能体，来调用API进行长程的任务规划；

第二步，大模型可以作为一个控制器，来监控小模型执行过程中有没有出错，及时地终止或调用其它技能来挽救这些错误；

第三步，端到端视觉语言动作模型将动作作为大模型输出模态，像自动驾驶一样实现通用感知、规划和执行融为一体的大模型，这也是最有想象力的。

陈建宇：我认为大模型带给我们最重要的启发是告诉我们有Scaling Law的存在。

我们在研究通用机器人，它必须要有与它匹配的通用智能，引导我们思考如何做机器人的scaling Law，同时它也带给我们一些语言模型领域技术，例如基于transformer架构、predict next token的算法技术，当然这些远远不够，毕竟我们的机器人需要在物理世界去交互、去做事情，去理解整个物理世界。

所以不管是你的算法层面还是模型层面，还是数据层面，其实都有很多的不同，需要我们去探索。

具体而言，视频数据、合成数据、真实数据，人形机器人的下一个突破，需要不同数据的融合；而基于根据人形机器人未来的智能负载，也需要算力层面的云端协同。