打开网易新闻 查看精彩图片

王潜说,DeepSeek 当然很伟大,但我们要干一个像 OpenAI 那样的公司。

文丨申远

编辑丨宋玮

采访的第一个问题,王潜回答了 30 分钟,以自己为什么选择 AI 开始,到错过一个图灵奖级别的发现结束。

说这么久是因为他的经历太复杂了:本科在清华电子工程系,研究生却去了生物医学系,博士在南加大攻读 Robotics Learning(机器人学习),第一份工作则是自己做了个量化基金。

总结起来就是一个完全不典型的具身智能创业人:他既没有在中美大厂上班的任何经验,也没有响亮的学术头衔。

这不妨碍王潜的自信。

采访过程王潜绝少迟疑,一般都是语速飞快地直击要害,同时旁征博引输出一些 “暴论”,告诉你为什么别人不行,而他可以。

2009 年王潜就在做神经网络了,他设计的架构距离 transformer 一步之遥,这是他口中图灵奖级别的错过,也是他技术自信的起点,他是具身智能行业最热烈拥抱端到端具身物理模型的人。

在早期,这种自信会劝退一些投资人,但也有越来越多的投资人被说服。美团龙珠合伙人王新宇形容王潜是一个对技术有自己独特理解和执着判断的人,在持续跟踪王潜一年后,美团成为自变量的重要股东。

1 月 12 日,自变量机器人宣布完成 10 亿元 A++ 轮融资,距离上一轮融资只有四个月。据我们了解,此次领投方为字节跳动。

这是一个等待一个机会要改变世界的人。王潜想做 OpenAI 那样从 0 到 1 原始创新的事,想成为第一名。

错过了一个图灵奖级别的工作

晚点:创立自变量机器人之前,你上一段经历是在美国做了一个量化基金,这么大的跨度是怎么发生的?

王潜:跨度其实说实话,一点也不大,因为技术用的都是同一套。我博士专业读的叫做 Robotics Learning,主要还是 Deep Learning 这套东西,和做量化用的工具其实还蛮像的。

一个做 AI 的人想要赚钱,做量化非常直接。

晚点:最开始是怎么萌生要做 AI 的想法的?

王潜:小时候我主要想做数学和物理,后来发现理论物理学家和数学家的职业寿命已经和 100 年前相比变得非常短了,所以我想搞一个人脑智力发动机,那就是 AI。

晚点:你本科是清华电子系,但研究生转到生物医学系,为什么?

王潜:为什么本质上人类相信 AI 能做出来?因为有一个天然的 intelligent system (智能系统)摆在眼前,那就是人脑。但当时 AI 的技术路线是统计学习,它每年成功率提升 0.1%,你还不知道是不是因为 overfit(过拟合),所以我想到了神经网络

当时没有任何人认为神经网络是一个好东西,我找遍了清华整个信息学院所有的实验室,没有一个老师在做神经网络,所以我去了生医系,主要研究计算神经科学。

当时我导师从美国回来,给我说有个叫 Geoffrey Hinton 做了一个叫 Deep Learning(深度学习)的东西,我一看这不就是神经网络吗?所以我实际上是从 2009 年开始做 deep learning,当之无愧是国内最早的一波。

晚点:很多材料说你是国内最早做注意力机制的人,你是怎么摸索到这个方向的?

王潜:人类最高级的智能是 self- consciousness (自我认知),下面是 consciousness (认知),再下面是什么?一般大家都认为是 attention(注意力机制)。所以我就想能不能把它放到神经网络里面去试试,到 2014 年的时候把论文做出来了。

注:这篇论文名为 Attentional Neural Network:Feature Selection Using Cognitive Feedback,
https://arxiv.org/abs/1411.5140

论文中提出了一种新的神经网络框架,把自上而下的注意力机制和自下而上的特征提取放在了一个统一的模型里。

这篇论文投稿到了 NIPS(即现在的 NeurIPS),是最早三篇注意力机制的论文之一,所以怎么讲,应该说错过了一个图灵奖级别的工作。

晚点:你说你错过了图灵奖?

王潜:真的是这样,NIPS 上三篇论文,另外两篇论文来自 DeepMind 和 ETH (苏黎世联邦理工大学)的团队,我们的架构比他们远远要更接近今天的 Transformer。

晚点:主要差在哪里?

王潜:乘法算子天然非常难收敛,特别是你把它的层数放得非常多的时候。

当时在微软亚洲研究院实习,我还和何恺明、孙剑他们交流过。何恺明他们在做 ResNet(残差网络),我当时没有特别在意。

Transformer 出来后我就发现,其实我们差的就是把架构和 ResNet 连起来,ResNet 非常容易去稳定收敛性。

晚点:那很值得后悔了。

王潜:这个事后来我越想越后悔,越想越后悔,看到 NLP 领域的进展我就难受(哈哈),因为我们真的只差一步。

晚点:论文发表之后为什么转去做了机器人?

王潜:硕士毕业想要出国深造。当时刚好第一波 AI 四小龙出来了,但我没什么太大兴趣去做一个安防市场,我想找一个 AI 真正能落地的大方向,自然就想到了机器人。

晚点:当时在机器人领域也在用深度学习的方法么?

王潜:美国当时做 Deep Learning in Robotics 的只有几个组,其中一个是大家今天都知道的 Sergey Levine (机器人公司 PI 的联合创始人)和他的老师 Pieter Abbeel,另外 MIT、CMU 都有,最后我选了 USC(南加大)。所以我应该算是科班做机器人 Embodied AI 出身的,当时我们还叫 Robotics Learning。

晚点:这个后面有点走不下去了?

王潜:到了 18、19 年整个 AI 领域大家觉得有点停滞了,在机器人上的表现就是 deep reinforcement learning 有点走不下去,因为它天然有一个很糟糕的特性,数据量的需求随任务难度提升指数级增长,那个时候也没有在做 imitation learning,所以整个方向好像都不太对。

晚点:simulation(仿真)呢?

王潜:这个事也不成立。因为物理世界和虚拟世界的差异实在是太大了,物理世界通常很难观察,而且随机性极大。

(王潜把手指抵在了采访的桌子上往前推。)

一方面手指是可以变形的,另一方面它还有非线性摩擦,这两个东西耦合在一起,就出现了随机性,这种事你几乎是没法用仿真去模拟的。仿真环境里面训练的任何东西在现实世界中都不能用,所以最后我对整个领域的判断是,如果不出现一些根本性的变化,可能还需要三十年、五十年的时间机器人才有可能做出来。

晚点:所以你选择离开了学术界,去做量化基金。

王潜:当时确实比较 depressive(低落),我也不太喜欢学术界的生活方式,所以自然想到应该去赚点钱,最直接的方式就是量化。

这也有前人经验,最典型就是文艺复兴基金的 James Simons,他和陈省身一起拿过菲尔茨奖,量化做的非常成功,然后又反过来把钱捐给了他的母校,纽约州立大学石溪分校,把石溪的数学系建设得特别好。

AI 领域其实也有,就是梁文锋。

Silver Bullet : GPT-3

晚点:什么时候开始萌生了要回到 AI 和具身智能领域创业的想法?

王潜:2021 年,GPT-3 出来了,我当时就觉得这是一个巨大的范式转移。因为它有了 few shot learning (少样本学习)。

这个东西大家之前追求了几十年,一直没人能真的找到。强化学习最大的问题是指数爆炸,但 GPT-3 上学一个新任务的数据量是越来越少的,到了 ChatGPT 还出现了零样本学习(Zero-shot learning)。

顺便说一句,今天有人重新把机器人领域的强化学习捡回来说这是新路线,我觉得挺荒唐的。

晚点:过去为什么没有人想到 GPT-3 的路线?

王潜:这和大家的直觉太相反了。大家过去默认专用模型一定是最好的,但现在没有任何一个专用模型能做得过通用模型。

这就是 Silver Bullet (银弹,指一次性解决所有问题的技术),我本来以为要等 30 年或者 50 年的问题现在看有解决的希望了。

晚点:看到 GPT-3,你有没有想到当年在微软亚洲研究院做神经网络的时候。

王潜:所以我一定要回来干这个事情啊。你的第一个问题问为什么从博士读机器人到量化,然后再回来,这其实是一以贯之的,我只是单纯的想做 AI,仅此而已,中间换了几种不同的方式。

打开网易新闻 查看精彩图片

图片来源:《机器人总动员 WALL·E》,这是自变量机器人模型 WALL-A 名字的来历。

中国做硬件,美国做软件,不可能

晚点:决定要做机器人后,为什么选择中国而不是留在美国?

王潜:本来考虑过在美国,2022 年看了一圈觉得整个美国和硬件相关的生态实际上已经崩溃了。

供应链是个老生常谈的问题,美国实验室买个机械臂坏了返修可能需要两个月,但国内只需要一天。这是数量级的差异。

更重要的是硅谷已经没有 VC 去投硬件了。Figure AI 它早期的投资人要么是老板自己,要么是英伟达、OpenAI 还有微软,还有 Jeff Bezos(亚马逊创始人),没有什么正经的财投机构。

供应链和钱上都是这样,人也是如此。硅谷不是没有好的硬件工程师,但所有人都在苹果和 Meta,没有人愿意出来,或者说出来创业的目的是被苹果买回去。

从人的流动、信息的流动、钱的流动到供应链的流动,硅谷硬件生态当时已经彻底崩掉了。

晚点:中国的优势很明显,但劣势呢?比如融资还有算力?

王潜:中国融资肯定比美国要难多了。但具身智能限制 scaling up 的主要不是算力,而是数据。数据成本上中国明显比美国低一个数量级。

这样算下来,中美之间,融资低一个数量级,但成本也低一个数量级,基本上还是持平的,而且钱的劣势不是永远的,但成本优势是持续在的。

晚点:人力资源呢?

王潜:22 年的时候大家还会讨论硅谷的人才优势,现在已经不会有人这么问了,因为大家都清楚,硅谷搞 AI 和国内搞 AI 的都是一波人,大家都是大学同班同学,你说谁比谁强啊?

晚点:创业之后,你对上面的判断有改变么?

王潜:美国还是比我当时想的要快一些。

比如 Figure ,它的估值这么高,有一个原因是它承载了制造业回流美国这个大逻辑,因为它真的在用高一个数量级的钱猛砸硬件自产,接下来它还打算自产关节、电机、电池甚至电机绕线设备,就差没有自己打螺丝了。

之前很多人说,中国做硬件,美国做软件,大家某种意义上可以井水不犯河水,这完全不可能。包括 Figure 在内的美国公司做硬件一点也不比国内差,当然有没有量产那是另一回事,但量产前这个硬件水准,我觉得比国内 99% 的公司做得更好。

晚点:回国组建团队你第一个找的谁?

王潜:我们的 CTO 王昊。我们在 2021 年就认识了,他在 IDEA 研究院的老板就是我那篇 Attention 论文的合作者。我开始做量化的时候涉及大量 infra 工作,这部分我没怎么做过,对方给我推荐了王昊,他做大模型相当早,2021 年中国大模型开源组织一个是智源研究院,另外一个就是 IDEA 了。

顺便说一句,现在很多具身公司,我相信 infra 和算法耦合的工作他们会很难做,因为以前没干过,这两者之间还是有相当大跨度的。

我找王昊的时候他正在很痛苦做 AI 落地的项目,因为这个东西就是很难落地嘛,即使现在,如果你不做 coding 还是没法落地。我和他说了之后他觉得,机器人确实是一个完美落地的东西。当然站在今天回头看,那时候还是想的有些简单了。

晚点:因为也不是那么好落地,对吧?

王潜:因为机器人除了模型之外,还有别的很多要素,硬件、系统等等。但反正那时候我和他说完,他就先来北京找我了,来了就再也没回去。

看不到具身智能的 scaling law,那是因为你的数据太糟糕

晚点:自变量的 WALL-A 模型被形容是一个端到端具身基础模型,和大语言模型并列。具身智能有这么大的路线分歧,你为什么这么确定端到端?

王潜:23 年底公司成立的时候没有人信端到端。投资人都给我说,你还是要做一个分层模型或者专用模型,可如果没有范式上的变化,还是做专用模型或分层模型,那凭什么轮到我来做这个事呢?专有模型绝对不可能成功,一定要做基础模型,反过来再做专有模型。

晚点:分层模型的弱点是什么?

王潜:比如你去抓一个东西,按照分层的思路,你要先把物体三维形状重建,然后估计它的重心、选抓取点,再生成一个轨迹去接触这个抓取点,最后成功抓起物体。

首先,三维重建不太可能完美复现物体表面的物理特性,比如那些毛刺、坑洼,它对物理接触是极度敏感的,因此最开始一个微小的错误在分层模型里会被非常快的级联放大,层数越多错误放大的越快。

大家之前按照这个路线做了 80 年了什么也没有做出来。

打开网易新闻 查看精彩图片

晚点:端到端可以规避这样的问题?

王潜:因为你可以从最终抓取结果 backprop (反向传播)修正最初的抓取动作,设法让某些抓取位置的成功率变高,端到端不需要做 100% 的完美还原。

另外端到端的思路也不是大模型时代才有的,14、15 年 Sergey Levine 他们,包括我们那时候都用的是端到端方法。2018 年左右机器第一次真正意义上做到 general grasping (通用抓取),用的也是端到端深度强化学习。

晚点:现在影响模型性能提升的主要瓶颈是什么?

王潜:数据质量是最重要的。有人说看不到具身智能的 scaling law,我说那是因为数据太糟糕了,全是噪声。

以前 80% 工作在模型算法上,现在 80% 工作在数据,剩下的你要尽可能让模型自己决定它要做什么。这是方法论上一个大变化。

晚点:仿真数据是不行的?

王潜:要高质量的真实数据,在真实物理环境做实际任务。

晚点:像英伟达的 Omniverse 这样的虚拟仿真环境不行么?

王潜:GR00T 第一版非常糟糕,因为用的纯虚拟仿真数据,后面的版本就开始转向融合数据了。

我常跟投资人讲这个逻辑,难道你相信任何一个做仿真的公司能在算力上超过英伟达吗?英伟达封住了所有这些公司的上限,而英伟达也转向了真实数据。

我们这一代的博士,所有人最开始都在做仿真,现在没有一个人还在做仿真,因为它就是不 work。

晚点:但具身领域还有很多人在做仿真数据。

王潜:我算是真正意义上根正苗红科班出身做机器人,其他有些是做 CV 视觉还有 Graphics 图像处理的,他们或许认为这个东西可行吧,但我们当年真的踩过所有的坑。

晚点:算力不是核心的瓶颈?

王潜:至少目前还没有。同样能力条件下,多模态模型比语言模型小一到两个数量级,语言模型需要记很多东西,物理世界模型没什么需要记的,它只需要知道物理规律。

这也是我选择回国的一个考量,具身领域暂时没有算力卡脖子的问题。

晚点:理论上具身基础模型和多模态模型一样,非常难以收敛。

王潜:多模态模型很难训练,因为数据天然缺失。一是缺乏时间上的连续带因果性的认知。比如人第一次见到猫,可以绕着它走一圈,这样你对它的理解有时间上的连续性;另外你知道自己的位置,所以对猫有一个三维的理解;最后你还可以和它互动,比如握握手,玩一会儿。这些都是额外的信息,所以人不需要看一万张猫才知道什么是猫。

你把动作连续性这个因素加进来,会发现做具身智能模型比单纯做多模态模型要容易。十年之后,我们会发现最好的多模态模型是具身模型。我跟很多做多模态的人说,你真的想要做好多模态,应该来搞具身智能。

晚点:自变量在技术上有什么独门秘籍么?

王潜:能说的我们都公开发文章了,剩下的都是不能说的。

晚点:反对端到端的观点会说,机器人走路和用手玩魔方这两种完全不同的事怎么能指望用一个模型完成呢?

王潜:首先这事倒真不用一个模型做,端到端说的是模型内的结构,不是说功能分区。人的大脑也是端到端的,但不同的区域负责不同的功能。

不过实践下来发现,导航和动手操作放在一起真的表现好。

晚点:模型出现了更多泛化?

王潜:各方面都变好了一点。最典型的是 COT(思维链)。大家说的具身 COT 还是先做一个语言 COT,然后挂一个控制模型,这还是分层。

我们是世界范围内最早做原生 COT 的,24 年底开始做,25 年和 Gemini Robotics 差不多同时做出来。理想情况下它可以做无限长的策略和规划。

晚点:你能举个例子么?

王潜:比如给它一个图纸,旁边摆着积木,它可以按照图纸把积木搭出来。第一它能理解图纸,第二它能评估每一步和最终结果之间的差距,第三它还会动手把它搭出来。

晚点:你们的模型已经可以做到这种程度了?

王潜:是的。

晚点:哪块还不够好?

王潜:总体来说都还不够好,核心原因是数据量不足,当然算法也很重要,但数据是第一。

晚点:你对李飞飞的世界模型怎么看?

王潜:李飞飞讲的空间智能偏向三维生成,但就像我刚才说的,知道所有的三维形状,并不意味着能做所有的事情。

完美的空间智能模型只相当于完整的具身智能系统的 40% 到 50%,剩下的都是和直接物理接触过程相关的。

一定要由 AI 去定义硬件

晚点:自变量已经发布了两代轮式机器人,外传是 2024 年底才开始做的,为什么会这么晚?

王潜:我们一直觉得 AI 是第一性的,硬件是第二性的。最早我们做硬件各方面条件不是很成熟,一直是个小团队。后来我们发现自己做硬件之后很多 AI 的问题反而是更容易做了。

这方面我们可能真的有点晚了,25 年 1 月份才开始真的大规模招硬件的人。

晚点:你是做具身出身的,最开始没有觉得硬件重要吗?

王潜:一个公司的资源是有限的,尤其是早期没那么多钱,我们觉得应该更多依靠供应商。

晚点:自己做硬件之后 AI 问题更容易做了,你能举个例子么?

王潜:比如虽然都是机械臂,但是否基于 AI 原生定义差别是非常大的。因为我知道机械臂在数据采集还有推理阶段应该怎么用,而只有用这种天然适合 AI 的机械臂,你才有可能做出有意义的研究。

现在有两种看法,一种认为应该先做一个非常完美的硬件,然后基于这个硬件去做 AI,这完全不对。另一种就是我的看法,一定要用 AI 去定义硬件。

还有一个例子是灵巧手。人类手掌是没有肌肉的,所以它包裹性很好。但很多灵巧手会把电机放在里面,然后做的又厚又硬,但外形仍然和人手一样。这个时候你会发现手掌是失去功能的,它包不住任何东西,在去抓物体的时候实际上是用指根施力。

这个例子很典型,只有没收过数据,没训过模型的公司才会出现这么荒唐的硬件设计。

晚点:自变量的灵巧手能力也有赖于具身物理模型能力的迭代么?

王潜:基础模型学到的物理规律、动作模式还有对物体属性的理解是不以操作的是夹爪还是灵巧手有变化的。你有一个好的基于夹爪的模型,再去训灵巧手会极大地节省资源和时间。

当然还是要微调和后训练,但它的原理就类似于大模型,在英文上训练的越好,那它迁移到中文上会很容易。

晚点:马斯克说灵巧手的技术难度比特斯拉造汽车还难,仅次于 Space X 的可回收火箭。

王潜:硬件确实很难做,但我觉得硬件和模型能力是两条平行线,我们也在做灵巧手,但主要是为了帮助模型训练。

其实大部分场景没必要做这种和人自由度完全一样的手,一方面是成本,另一方面也没太大用处。人只用夹爪也可以做非常复杂的任务,而夹爪在大部分场景,至少一半以上场景是足够用的。

晚点:但大家会觉得,如果出现一个和人一样的灵巧手是一个巨大的突破。

王潜:我觉得未必,比如大家之前觉得机器人能跑步、能唱歌跳舞就是个巨大突破,但真的是吗?更多的还是情绪价值吧。高自由度灵巧手确实在有些任务上非常有用,但大部分时间它可能也是提供一个情绪价值。它看上去很像手,很复杂很厉害,就这样。

晚点:自变量的灵巧手现在进展到什么程度?

王潜:我们已经做了 20 自由度的手,效果还不错,但这肯定不是我们的主线,更多还是为了我们模型训练。

晚点:你们的机器人是轮式而不是双足,这是怎么考虑的?

王潜:腿有两个本质问题,一个是安全性,本质上它就是比轮式更容易倒。另一个是它更贵,因为它的电机、关节数量要比轮式多一个数量级。

晚点:但它就没有好处么?

王潜:它的用处并没有很大,当然有情绪价值,但排除掉这个,你在室内场景中有多少是需要腿的呢?它的用处不足以抵消它的劣势。

晚点:自变量不会去做双腿?

王潜:可能会做,但我们希望在有用的地方做。做一个公司,很多时候重要的是在什么地方不做,这个地方我们就选择不做。

我们要干一个像 OpenAI 那样的公司

晚点:有投资人说你们从一开始技术思路没有变过,也比较坐得住,不着急商业化。这会让你们的早期融资很困难吧?

王潜:当时投资人逻辑很简单,你也不是字节也不是 Google,凭什么你来做大模型?就算具身智能要做大模型,那为什么是你不是别人,当时很多公司融资规模已经超 10 亿了,我们才融天使轮。

晚点:你怎么回应?

王潜:其实没法回应。这是我觉得中国资本市场的一个问题,大家不相信技术是第一性的,潜意识里觉得技术谁都能做,没有独特性。

因为过去做得好的全是 fast follower(快速跟进者),从来没有出现过在从 0 到 1 阶段就做到第一名的。

晚点:你相信具身智能中国真的有可能在从 0 到 1 的阶段就做到第一名。

王潜:有人问我你是不是要做具身智能的 DeepSeek?我说 DeepSeek 当然是一个很伟大的公司,但我们要做像 OpenAI 那样的公司。

晚点:只有认同这一点才会投资你们对么?

王潜:会投我们公司的基本上都是 buy in 我们要做世界第一这个逻辑的。如果你 buy in 要快速赚钱这个逻辑,那根本也就不会投我们。我们的股东有给我讲说,踏踏实实把基础模型做好,缺钱找我们要。

晚点:比如哪一家是这样的?

王潜:具体不说了,但你看国内做大模型最好的两个大厂,阿里和字节都投了我们,我们也算是字节唯一一个投的具身智能公司。

晚点:听说有投资人 24 年的时候临时出题考你们的机器人卷卫生纸,你们表现很好。

王潜:不是临时,给了三天时间。他们说你们不是有少样本学习能力么?那给你们一个从来没见过的任务,三天做出来。

题目就是整理卫生纸。你需要把卫生纸脏的、皱的地方扯掉,然后贴一个封口塑料标,最后放回去。实际上就是酒店卫生间清洁的一个流程。

晚点:你们成功做到了。

王潜:效果还不错。

我们花了一天收数据,一天训练,第三天投资人就拿着一大堆各种卫生纸来了,所以实际上准备的时间是两天。

打开网易新闻 查看精彩图片

晚点:随着模型能力提升,现在融资应该比早期顺利多了。

王潜:现在比那时候好一点了,一个就是大家意识到国内的人才储备和密度丝毫不比美国差。另一个,不管是 DeepSeek 还是宇树,大家都看到,中国能干第一流的事情,没有什么克服不了的问题。不管资源、算力还是别的什么,它们都不是本质问题。

晚点:所以也不会有人问,为什么是你而不是 Google 或智元这样的问题。

王潜:现在不太会有人这么问了。

晚点:你好像一开始就没有那些条条框框的刻板印象。

王潜:可能我中美两边都知道大概怎么回事,所以我一开始就不觉得有什么美国一定能做成,中国做不成的事情。

团队打分:8 分,满分 10 分

晚点:你之前没有管过大团队的经验,你怎么分配你的时间优先级?

王潜:招人和融资我都会花比较多时间,技术上我参与重大技术判断,最重要的产品我可能会自己盯。

大部分时候我不会管很细,一个公司 CEO 要去管这么细的事,那这个公司肯定有问题对吧?我不是控制欲很强的人,也不希望他们什么事都找我。

晚点:和别的机器人公司比,自变量没什么光环加持,招人对你来说难么?

王潜:我的心得就是不同的公司气质确实会吸引来不同的人,我们吸引来的就是比较理想主义,对技术本质比较在意,这还挺明显的。

晚点:有什么趋势么,比如哪些公司、哪些行业出来的人在你看来会靠谱一点。

王潜:应届生。因为这个行业真的不吃经验,几乎没人做过,所有人都是第一批。最近也开始有大厂或者创业公司,真的训过模型的人出来,有做大模型的,有做自动驾驶的。我们更倾向于招以前做大模型的人。

晚点:自动驾驶公司做具身为什么不行?

王潜:第一,普遍来讲,自动驾驶对大模型的理解还是稍微滞后。

第二,自动驾驶和机器人这个事不像很多人想的那样,它不是 100% match 的,自动驾驶没有物理接触,机器人是有很多接触的,技术核心是不一样的。

第三,自动驾驶安全性要求非常高,转过来大家多少会有思维方式不一致的地方。当然后两点都是次要的,主要还是第一点。

晚点:其它大模型公司不能做你们的事吗?

王潜:这不是一个纯大模型的事儿,还涉及硬件、系统、物理世界的随机性各种问题,然后还有实验的问题、组织管理的问题,本质上都和大模型团队基因不对付。

大模型团队像是空军,一个很优秀的飞行员加一架飞机你就去飞了,怎么把敌机打下来靠的是单兵作战能力。大模型公司核心团队本质上是一个顶级聪明人组成的相对松散的实验室。

硬件团队是海军,你在一艘船上,每个岗位都是高度协同的,从前端直接和硬件、数据打交道,到处理数据,再到模型训练,它的链条真的太长了,一个岗位出问题整个船就沉了。

晚点:你们是怎么克服这种基因冲突?

王潜:找到合适的人吧。另外技术上讲,动作这个模态和语言还有视觉不一样,你需要再去开发一套新方法来利用动作数据,这本身就有很高的技术壁垒,确实需要一个原生的具身智能团队来做这些事。

晚点:现在自变量算法团队和硬件团队磨合到了一个什么样的水平?

王潜:基本上做到没什么部门墙,大家能够比较好地作为一个整体协作。

晚点:如果让你打分的话?

王潜:8 分,满分 10 分。

第一名,没泡沫,赛道出清

晚点:前一段时间 omdia 出了个报告,全球人性机器人出货 1.3 万台。前几位是智元、宇树、优必选等等,你怎么看这个报告,2026 年机器人行业在商业化上会有什么进展?

王潜:那个报告我觉得参考意义不大,基本上都还是情绪价值。多 1000 台唱歌跳舞的机器人和少 1000 台有什么区别吗?机器人现在还不能干活。

商业化有点像狼来了,过去两年大家都说是商业化元年,到了现在真的可能是元年,大家反而不信了。因为预期透支太多了,很多人提前把商业化这个饼画出去了。

晚点:你认为 2026 年是商业化元年?

王潜:可以开始商业化了,不能说一下子就很成熟,但至少这个事可以开始做。

晚点:这个判断是怎么做出来的?

王潜:主要还是技术上达到阈值,强化学习可以做了,也可以通过少样本学习快速在单点产品上部署了。

基础模型没有好到一定程度,强化学习是不 work 的,我觉得这都挺有标志性。具身智能大家之前真的做不了太多事,除了唱歌跳舞。

晚点:自变量 2026 年在商业上打算怎么做?

王潜:至少在某些场景里面实现正 ROI,这是最大的一个里程碑,是到目前为止还没有一家做到过的一件事,除了唱歌跳舞。

晚点:在什么场景里落地呢?我看之前你们提到过比如公众服务、养老之类的。

王潜:家务、打扫、收纳这是一类,另一类是工业领域的单点垂直场景,比如打螺丝。这是很典型过去只能用人做的事情。

今年我们就能看到机器人商业化的落地,以正 ROI 的方式,我还挺有信心的。

打开网易新闻 查看精彩图片

晚点:你对竞争格局怎么看?除了你们还有哪些公司能做到以正 ROI 的方式落地?

王潜:大部分可能还是海外公司,比如 1X,他已经卖出去几百台了。Figure 在工业场景也有一些开始在做的,接近于做出来了,这些公司都还蛮强的。

晚点:国内呢?

王潜:我觉得国内大家可能做唱歌跳舞的比较多,明显比海外要差一点。

晚点:换种说法就是跟自变量比也差一点。

王潜:那肯定我们还是觉得我们做的好嘛。

晚点:你怎么看和国内同行的竞争?

王潜:首先可能要区分一下什么是同行。现在这个具身智能大类里,有一类是做 locomotion 的,这事本身不是一定需要 AI,它是一个纯粹控制论的东西。最早从波士顿动力开始,他们没有用一行 AI 的代码。

这种公司实际上是个制造业逻辑,把产品做得更好,价格做得更便宜。这当然也不错,但和 AI 可以说毫无关系。

也就是说,我们在 AI 这一头,宇树在另一头,当然我们最终都会往中间走,但我认为我们做硬件是容易的,他们做 AI 是难的。

还有一类公司,主要是整合资源,某种意义上更像房地产公司。

晚点:不同种类公司的竞争格局分别是怎么样的?

王潜:唱歌跳舞那类机器人的热度在快速下降,只有最头部的几家能活下去,赛道会出现出清。

我们这边也开始有这种趋势,26 年不管是商业化还是模型,你总得拿出一点好东西出来了。25 年我们还能看到大量进入的新玩家,最近几个月在模型或整机赛道,新进入的玩家已经基本没有了,因为淘汰赛开始了。

当然,整体还是会变好,因为机器人真的在落地,市场规模起来了大家就知道它不是一个炒作。如果很多年你都拿不出一个实际有用的东西的话,很快就会像曾经自动驾驶那样面临一个巨大的低谷,我觉得机器人不太会有这样的低谷,因为它正在落地。

晚点:很多人说具身智能过热,存在泡沫。

王潜:我觉得一点也没有 bubble。和自动驾驶比,和之前所有大赛道比,具身智能在资源投入、估值还有融资金额方面都是一个太小的赛道,更不要说你还比美国低了一个数量级。

晚点:美国在融资方面的优势会让你觉得当时还是回美国比较好么?

王潜:长期来看还是国内优势比较大。不管哪个行业,基本上从 1 到 10,或者从 10 到 100 这个阶段,中国一定做的比美国好,所以如果我们在从 0 到 1 这个阶段能够做的不比美国差,甚至做的还不错,那肯定长期还是我们有优势。

晚点:横向比较,你认为自变量技术做的最好,对么?

王潜:我肯定认为自己技术上最好,而且这个事行业内多少有一些口碑。

今天真正理解大模型应该怎么做的人确实不多,特别在具身领域几乎是没有。全世界所有具身智能公司,我们是唯一一个以大模型团队为核心来做的。从技术实力来说在初创公司里肯定是第一名。

很有信心,但也焦虑

晚点:整个采访留给我的最大印象就是你很有信心。

王潜:过去两年的判断都比较准吧,比如我们过去两年某种意义上主动放弃了商业化,现在看这是一个很对的判断。

晚点:我说的不只是这两年,可能从学生时代以来你好像都是这样。

王潜:这就是所谓的 vision 嘛,我觉得我 vision 还是可以的。

晚点:你和大部分人起心动念的方式好像非常不一样。

王潜:我觉得要做就做一个第一名的事,不然确实没太大意思。如果纯为了赚钱我还不如接着去做我的量化呢对吧,没必要吃这么多苦。

晚点:所以这事儿在你看来也算是吃苦。

王潜:肯定还是挺艰难的。

晚点:从你的谈话里没太感觉到这一点。

王潜:那肯定不能让你感受到啊。

晚点:你是不是有点抗拒让别人看到这个东西?

王潜:大家还是喜欢看到一个很强的,无懈可击的形象。

晚点:那很假啊。

王潜:那是呈现方式不对,整体你还是需要无懈可击的,大家才会认可你。

晚点:如果有空休息了你一般会做什么?

王潜:睡觉,我是一个特别 i 的人,优先睡觉,醒了看看书就挺好。

晚点:你是不是睡眠质量不好?

王潜:焦虑时睡得不太好。

晚点:你最近看的一本书是什么?

王潜:《科学美国人》。

晚点:好吧 … 我听说你也很喜欢刷 B 站。

王潜:不休息的时候我也在刷啊。

晚点:有什么倾向的题材吗?

王潜:没有,纯刷。

(说着王潜念出了他此刻 B 站首页的视频标题:揭秘谷歌 DeepMind 实验室;高中生元旦晚会跳舞;世界上最生的熟肉;今日份快乐源泉;浮空风力发电系统完成并网发电测试 …… )

题图来源:自变量