具身智能GPT-2时刻！国内公司做出全球最大端到端统一具身大模型|人工智能|大模型|机器人|模态|神经网络

作者：蛋酱

近日，关于 Open AI 被投企业 Physical Intelligence (PI) 的一系列报道，让人们关注到具身智能大模型引发的机器人时代变革。

目光转回国内，我们同样在中国公司中发现了这场变革浪潮的先行者。据机器之心了解，国内初创公司自变量机器人（X Square），是国内唯一一家从第一天就选择了端到端统一大模型技术路线的公司，与 PI 的技术路线不谋而合。这家公司正在训练的 Great Wall 操作大模型系列的 WALL-A 甚至从参数规模上已经超过了 PI。

今年 4 月，机器之心曾对自变量机器人公布的 Demo 进行报道，其中基于他们自研的端到端统一具身大模型，双臂机器人可利用低成本硬件即实现对不规则物体的精细操作（如抓握、拾取、切割等），以及折叠衣服、冲泡饮料等复杂任务，展现出相当程度的泛化性能。

当前，自变量机器人的模型效果已达到惊人水准，体现在包括处理长序列复杂任务，以及泛化性、通用性等方面。

视频链接：https://mp.weixin.qq.com/s/Mwt-NuGPUcsLSNPxxapdAA

拉拉链对机器人来说极为困难，机器人除了仅依靠位置控制来完成微小拉链头的插入，滑块与链齿的精准对齐和适度力度的拉动，还需要实时应对布料变形带来的干扰，并能够准确判断拉链的咬合状态以及处理布料卡住等异常情况。

视频链接：https://mp.weixin.qq.com/s/Mwt-NuGPUcsLSNPxxapdAA

织物操作是操作任务中最困难和复杂的任务之一。织物是柔性无序物体，晾晒/整理/折叠衣物任务面临识别并理解柔性物体的拓扑结构的挑战（比如衣物展开要从完全无序状态中识别领口/袖子等结构；衣架插入要理解衣物的前后层次；衣物折叠要理解折叠的结构），对模型的感知和理解能力要求很高。其次，在叠衣服的过程中，织物的运动和摩擦有大量随机性，形态极难预测，需要模型进行实时感知和修正，要求极强的鲁棒性。

这种处理复杂任务以及「泛化」的能力，正是自变量机器人团队对机器人「Scaling Law」的探索成果，他们希望用单一的大模型来驱动端到端的机器人 manipulation。

目前，这家成立不到一年的中国初创企业，已经做出了世界上最大规模的端到端统一具身大模型「WALL-A」，并在多个维度上超过了所有已知模型。

自变量机器人认为，目前 Great Wall 系列的 WALL-A 类似于「GPT-2」，伴随着模型的不断迭代，机器人领域的「ChatGPT」时刻可能会在不久后来到。

令大家好奇的是，这家年轻的初创公司，将会如何实现这一宏伟目标？

近日，自变量机器人接受了机器之心的采访，介绍了他们正在进行的有关于技术边界的探索，以及这场机器人浪潮下的一些思考。

世界上最大规模的端到端统一具身大模型

机器之心：X Square 正在训练的 WAll-A 是一个怎样的模型？

WALL-A 是世界上最大规模的端到端统一具身大模型。在多个维度上，我们的模型都超过了目前已知的所有模型的能力。

比如，从任务复杂度层面来说，我们能够做拉拉链、扣扣子、整理衣物等精细、随机且涉及复杂拓扑结构的任务；从通用性、泛化性层面来说，我们可以做到用极少的样本，完成各种物理环境变量、动作模式的泛化和迁移。

「通用性」和「泛化性」是定义这一代具身智能技术最核心的要素。只有达到足够的通用性、泛化性和可迁移性，才能实现在自由环境中，不受预设环境和预设物体限制的自由操作，才是真正区别于「自动化」及以往专用机器人的新一代机器人。

机器之心：为什么将其定义为机器人领域的「大统一」模型？

第一个维度，是我们实现了端到端的纵向统一。从最原始的视频、传感器信号，到最后机器人的速度、位姿、力矩，完全用一个模型解决，中间没有任何切分的步骤，排除了分层所带来的噪声。

第二个维度，是我们实现了任务的横向统一，所有的任务放在同一个模型中训练，推理的时候也用同一模型进行操作。

对于一切操作任务，一个单一的模型即可解决所有问题，因此称之为「大统一」模型。

据我们所知，不只是 PI，海外的明星创业公司目前都在走这条路线，但国内只有我们在走。

机器之心：这种「大统一」模型与大语言模型、多模态大模型以及之前的机器人模型的关系是？

统一具身模型的技术方向，既完全不同于传统机器人学习的小模型技术，也完全不同于以往语言、多模态大模型的技术。

首先，大模型的技术栈和小模型完全不同，两者之间没有什么可迁移性。和大模型背景的同学们讨论的更多是计算图优化、混合精度训练如何收敛、并行调度之类的问题；和做机器人或者小模型的同学们讨论的更多是模型的某个设计能够起到什么样的作用或者某个 Bound 是否太松。即使都聊起模型，大模型和小模型的同学们视角也完全不同：大模型最重视的是否方便 Scale Up，小模型更重视「可分析」和「结构设计」。

其次，这件事在数据工程方面有着更高的要求。目前有几十个模型在支撑我们的数据系统。同时，公司自研了一系列数据采集设备。

此外，在所有 AI 领域的细分赛道中，机器人的门槛几乎是最高的，因为和语言或者视觉有明显区别的一点是，机器人领域中的 Domain Knowledge 实在太多，怎么站在大模型的语境下看这些 Domain Knowledge 很重要。另外机器人模型涉及的模态空前的多和复杂，对模型要求的重点也和以往的语言或多模态模型很不一样，如果不是同时有两方面的背景，可能很难把这件事完成好。

机器之心：所以你们的技术团队是按照怎样的思路组建的？目前是怎样一个构成？

创始人兼 CEO 王潜本硕毕业于清华大学，是全球最早在神经网络中引入注意力机制的学者之一。博士期间，王潜在美国顶级机器人实验室参与了多项 Robotics Learning 的研究，方向覆盖了机器人多个前沿领域。

联合创始人兼 CTO 王昊博士毕业于北京大学，在粤港澳大湾区数字经济研究院（IDEA 研究院）期间担任封神榜大模型团队负责人，发布了国内首个多模态大模型「太乙」，首批百亿级大语言模型「燃灯 / 二郎神」及千亿级大语言模型「姜子牙」，模型累计下载量数百万。

王潜：面对机器人大模型这波潮流，很多团队可能因为「沉没成本」和「路径依赖」而止步不前。我自己是全球最早引入 Attention 机制的学者之一，在人工智能浪潮兴起的时候，我意识到纯 AI 在落地方面的天花板，所以我出国去搞机器人；在机器人方面，我研究过当时最前沿的 topic，因而非常了解许多技术路径的瓶颈和天花板，把该经历和纠结的都经历了；从 20 年左右自己就看得很清楚通用机器人这事做成只有统一大模型这一条路；所以我们从第一天开始团队的组建和技术的探索就是完全为这个方向设置的，包括我们的技术框架和方向从第一天开始就没有改过。

王昊：我觉得王潜在这里的作用是决定性的，我还真没见过这样既懂机器人又真懂大模型的人。我自己切身的感受是机器人这个领域门槛实在太高了，而懂机器人的人里又确实几乎没人有过 scaling up 的经验，即使像原来 Google 的那批人离开了大平台的基础设施支持，能否做到以前的事情也是一个很大的问号。

原生的「Robotics Learning + 大模型」的创业组合，让 X Square 从第一天起就具备原始创新、对技术路径本质思考的基因。

机器之心：端到端和统一模型是唯一的路径吗？

王潜：首先解释下「端到端」。从 2016 年开始，我已经认定，端到端是解决 manipulation 问题唯一可行的路径，本质上是因为 manipulation 和所有其他 AI / 机器人任务都有本质的区别，即涉及到的物理过程的复杂性远远超过其他任务。这个特点决定了任何分层分步的方法都很难彻底解决这一问题，因为模型不是完美的，每分出一个步骤，都一定会引入不准确的中间结果，即不可控的噪声。

拿最常见的分层方法中的 3D 重建来说，经常出现很多毛刺空洞之类缺陷，有时缺陷很小，人肉眼看的时候都不太能注意得到，但在物理接触中，哪怕一点点的毛刺都会导致结果完全不同。这类问题在每个步骤中都会叠加，最后得到的东西完全不可控。另外，每一个步骤都会丢弃掉大量的信息，而往往在最后控制的时候这些信息反而是重要的。

这也是我们团队与很多 CV / 自动驾驶背景团队最大的不同。很多人会觉得 manipulation 的核心在于 Spatial Intelligence（空间智能），只要能理解三维空间关系，这个问题自然迎刃而解，但据我们所知，做到这里只是问题的一半而已。

但在去年的时候，甚至直到今天，很多人并不真正相信端到端，或者说不认为统一是长期的趋势。去年只有我们在说端到端，大家普遍是不信的，但现在不说端到端都不好意思出门了（笑）。

2017 年，一个非常有名的机器人教授当面跟我说：「你搞的这种端到端的路线永远只能是 Toy Model，永远不可能走通。」我到今天还记得很清楚。一直到今年初，端到端在国内都仍然是非主流的判断，我们去年下半年说要做端到端，大家还是以不信为主，说实话我们得谢谢马斯克，特斯拉 FSDv12 给了大家很大的冲击。到了今年年中，端到端就已经「泛滥」了，大家都争相恐后挤到这条赛道上。

至于统一模型，端到端的共识形成尚且如此困难，统一模型的理解就更难了，因为它更加反直觉。直到今天，国内仍然只有我们实际上在走这条路。

之所以说「Foundation Model」是反直觉的道路，因为人们基于自身的经验，本能的会觉得把数据集中在一个领域做专家模型的效果会更好，但今天我们看到，「通才模型」才是真正能够打破天花板，在相同投入下达到更高能力的正确路径。

这条路线其实在其他领域已经有比较好的结果。例如，ChatGPT 是端到端的统一模型，也是所有任务统一的模型。又比如刚才提到的特斯拉 FSD，虽然只做一个领域任务，但是也是端到端完全统一和所有任务的完全统一。

王昊：还有关键的一点，机器人做学习最困难的点，是数据；要彻底解决数据问题，只有通过把所有任务的数据放到一个统一模型里面，靠学习所有任务中一致的 Common Structure，比如物理规律、物体特征，这也需要 Foundation Model 来解决。

机器人的「GPT-2 时刻」与 Scaling Law

数据质量 >> 数据多样性 >> 数据量

机器之心：业界近来常说「机器人领域的 Scaling Law」，怎么理解？

王潜：很多人说到 Scaling Law，想到的一个词叫「大力出奇迹」，我觉得这是对 Scaling Law 庸俗和表面化的理解。关于这点，王昊应该有更深的感触。

王昊：因为我算是国内当时最早做大模型方向的一批人，包括在国内最早发布了百亿模型，但当时靠规模或者大力并没有明显地「出奇迹」。ChatGPT 出来之后，在最早期的时候大家都发现单纯做大数据规模根本复现不出来，直到有人开始从 ChatGPT 上直接拉数据做微调，才有了第一批做出来的大模型。

为什么会有这种情况出现，我觉得核心还是数据的质量。我们自己训练的感受是：数据质量对模型影响极大，好的数据可能几千条甚至几百条就有非常明显的效果，差的数据哪怕几千万上亿条，反而会让模型越训练越差，这都是我们在训练语言大模型和多模态大模型实践过程中切实看到过的，这个可能确实和一般人心中的「大力出奇迹」不一样。

王潜：确实，数据质量在 Scaling Law 里才是最核心的要素，其次是数据的多样性，排在最后的才是数据量。

当然也不是说数据量完全就不重要了，有些探讨 Scaling Law 的工作在每一个模型上只有几十条到几百条数据的结果，我们觉得意义似乎比较有限。真正给出机器人 Scaling Law 决定性证据的是 RT-X，因为它确实是在一个模型上放了几十万条数据。

大模型 + 机器人，路径走通了

机器之心：基于哪些背景，你们选择在 2023 年底成立这家公司？

王潜：通用机器人发展的主要瓶颈在于智能而非硬件。以往，学术界和工业界有过非常多次向通用机器人的冲击，每次大家都抱有很大的希望，但后来都发现这个问题的困难程度远超过预期。在 AI 总体发展的过程中，我们逐渐发现莫拉维克悖论非常坚硬，机器人操作就是所有 AI 任务中最困难的一个，在 AI 本身有大的突破之前解决不太现实。

ChatGPT 从根本上改变了 AI 整个领域，对机器人来说有两个点：一是很多以前觉得极其困难的问题获得了突飞猛进的发展，例如 Planning、Reasoning、Language Interaction；二是从方法论上指明了解决机器人通用操作这一最核心问题的路线，一下子就看得很清楚了，对大家的解释成本一下子变得很低。

我自己从 2016 年开始做端到端的机器人模型，19 年到 21 年基本上看清楚了统一大模型这个大方向，但那个时候不管是资本还是学术界的主流，让大家理解和接受这种方法论都是有极大的障碍的。有了 ChatGPT 之后，「既然对 NLP 这么复杂的任务这套路线能够 work，对机器人这个复杂度类似的任务应该也能 work」，这种逻辑被大家所理解了。

所以我的决心是 22 年下的，但 23 年上半年我还在考虑是否在美国做这个大模型与机器人深度耦合的创业更容易成，到年中逐渐明确了这件事情在中国做有本质的优势。正好这与王昊在具身智能上的想法相契合，所以我们就一起组建了这个团队。

王昊：过去我一直做大模型，在长期的实践过程中，大家逐渐触碰到了一个本质困难：大语言模型对真实世界的幻觉始终难以消除。大语言模型就像一个生活在纯文本世界里的「大脑」，它可以通过海量的文字习得知识，但始终缺乏最基础的物理认知和现实世界的直接互动，实际上 AI 也就难以获得真正的理解力和解决实际问题的能力。具身智能让 AI 能够通过感知和与真实环境交互来学习，这正是通往通用人工智能的关键路径。关于具身智能大模型的技术路线，很早之前我和王潜就开始了非常深度的探讨，也非常认同彼此的技术判断。

机器之心：你们如何确定现在是做这件事的正确时刻？

王潜：2015 年前后，深度学习开始系统引入机器人领域特别是 manipulation 领域，当时大家是抱有很大的期望的，包括现在 Physical Intelligence 的 Sergey Levine 和我们走的端到端的路线，也包括其他人走的分层分步的路线，大家都觉得打破了之前的天花板之后，应该能直接取得类似当时在 CV 或者围棋上取得的那种很大的成功。

但到了 2018 年左右，情况比较清楚了：单纯靠深度网络 + 强化学习做不成 manipulation，核心问题还是在数据效率。

机器人的数据获取实在太难了，更关键的是数据需求随着任务复杂性的提升是指数级增长，就决定了像围棋或者图像识别那样解决机器人任务是不可行的。所以当时最主流的想法是大规模做 simulation 然后做 Sim2Real，我自己也在这个方向上探索了很长时间。但到了 2019 年，我的结论是从理论上来说，至少对 manipulation 这个领域，Sim2Real 的天花板是低而且难以突破的 —— 这条路线不 make sense。

今天各种公开的实验结果都能证明这个判断，但是当时，大家其实面临着除此以外无路可去的困境。我当时认为我们需要走类似当时 OpenAI 在走的路线。

后来，两个标志性事件发生了：谷歌 RT-1 和 ChatGPT。

谷歌 RT-1 的出现，可以说革新了机器人领域的研究范式。RT-1 的革命性有几点，第一是突破了之前占据主流的 RL（强化学习）+Sim2Real 范式所面临的明显的天花板，人类第一次看到了通用机器人的希望；第二是指出了机器人模型同样可能具有 Scaling Law，这一点在之后的 RT-X 中得到了确证。

但是机器人上即使出现了 Scaling Law，这条路是否能走到终点仍然是个巨大的问号，本质上还是因为机器人特有也是最困难的数据问题。2015 年做机器人的时候，大部分很好的工作都是几百几千条数据，对比之下，当时 CV 和 NLP 的数据量就在几百万、几千万这个数量级，处在那个时间点上，很难想象机器人面临的这个问题能够有类似 CV 和 NLP 领域的突破。

这个时候一锤定音的是 ChatGPT。在 ChatGPT 上我们第一次明确地看到了 In-Context Learning，或者可以叫 Zero-Shot Learning 的发生，当然之前也有逐渐出现 Fine-Tuning 和 Few-Shot Learning，但 In-Context Learning 是最终出现的极致，就是我们所谓的「涌现」。

尽管训练这样一个模型耗费的数据量很大，但有了这个基础模型之后，训练任何一个新任务的边际数据成本都被降低到极小。当我们考虑一个通用模型的时候，我们会发现我们第一次有了用有限的数据量做无限种类的任务的可能性，平均下来每个任务需要的数据量就会缩小到近乎无限小。这里的核心是统一模型带来的学习跨任务 Common Structure 的能力起到了至关重要的作用，而这件事在 OpenAI 做出结果之前没有得到过重视。

人们基于自身的经验，本能的会觉得把数据集中在一个领域做专家模型的效果会更好，但今天我们看到通才模型才是真正能够打破天花板，在相同投入下达到更高能力的正确路径。

机器之心：在学术界能做这件事吗？

事实上，我们已经明显看到学术界落后于我们及美国其他 Startup 半年左右。这一点和曾经的 NLP 领域已经有些相似了。

学术界的导向过于偏重 Novelty 且缺乏工程化能力。机器人大模型一定是系统级创新和工程落地的结果。大到方向性的判断和投入，小到具体的技术框架的改进，这些事情非常重要；我们每天都在做相应的创新和优化。我们认为这个东西一定要以一个 Startup 的形式来做，且公司的创始核心团队本身需要具备学术前瞻性和工程化能力。

机器之心：对于一家初创公司来说，实现「端到端通用机器人大模型」这个目标会很难吗？

首先感谢投资人们的支持：天使轮的时候，我们是在只有 idea 和技术的时候融到了钱；我们的商业计划书从大的技术方向和落地方向，从天使轮起就没有改过。我们后续融资也很顺利，一方面是因为我们的进展超过了预期；另一方面也得益于更多的机构认可我们。我们坚信，在正确的方向上，一定会汇集各方支持。

这可能是数百年来，中国第一次有机会在大产业上从零到一的阶段就领先世界，某种意义上也是历史的使命。在这个情况下，长期来看就一定还是在中国去做，可能要更好一点。

将人类从繁琐的体力劳动中解放出来

机器之心：你们的目标是「将人类从繁琐的体力劳动中解放出来」，如何理解？

大家一直都说莫拉维克悖论，人们想的是 AI 能帮人们去做体力劳动等人不愿意做的事，然后人自己去写诗、画画。但实际上大家现在看到，AI 先做出来的是 AIGC 这些写诗画画的东西。反而物理世界的东西，人真正希望它帮忙做的事，AI 目前还难做到。

人和动物的区别是什么？一个是使用语言，一个是使用工具。语言上，GPT 已经某种意义上已经解决这个问题了；工具层面，就是我们要做的，让机器人能够脱离相对比较「笨」的状态。

机器之心：自变量为什么选择了轮式机器人这种产品形式？人形机器人赛道的火爆，你怎么看待？

移动一个东西，你可以用底盘，也可以用很多其他方式，比如双足、四足。

我觉得底盘是最成熟的应用方式。综合考虑的话，要看具体场景究竟需要什么级别的通过性。我是觉得说人们日常生活中能接触到的大部分室内环境，轮式是足够的。

最关键的是成本，哪怕以后每种应用方式都非常成熟，我觉得成本永远都是一个大的问题。

机器之心：那未来的话，你们会拿自己的技术去赋能其他家的产品？