采访过半的时候,我们问罗剑岚:从最早做真机强化学习到现在,已经十多年了,这中间有没有哪段失败经历,让你对这个方向产生过怀疑?
他几乎没有停顿:“每天都在失败。经常失败,有时又会觉得有希望。”
“但从来没有怀疑过?”
“那倒也不是,也会怀疑吧,也觉得可能会成功。但我到今天都没觉得我很成功,因为最终的目标还没达到。”
这个“最终的目标”,他在一个小时的访谈里反复回到同一句话上:机器人不能只在静态数据集上学会模仿,它必须知道自己执行一个动作之后会发生什么。在他看来,强化学习、世界模型、VLA,全都只是服务这个命题的工具。
罗剑岚是上海创智学院副教授、智元机器人首席科学家。他博士毕业于加州大学伯克利分校,先后在 Google 和伯克利人工智能实验室担任研究员和博士后, 曾获 ICRA Best Paper、《麻省理工科技评论》“35 岁以下创新 35 人”(TR35)中国区等奖项。
2026 年 5 月底,他的团队发布了τ0-WM:一个在约 2.73 万小时异构数据上预训练的机器人世界模型,把动作生成、视频预测和执行前的动作评价统一到一个框架里,并开源了核心代码和权重。在此之前,团队今年已陆续发布 SOP 和 LWD 两项工作,分别对应真机后训练的基础设施和部署中学习的方法。
围绕τ0-WM,以及它背后那条走了十余年的路线,DeepTech 和罗剑岚进行了一次对话。
机器人必须知道,执行一个动作之后会发生什么
DeepTech:τ0-WM 刚发布,外界很关注它作为大规模预训练机器人世界模型的意义。你自己觉得这篇工作最核心的技术创新点是什么?
罗剑岚:它的意义不只是模型更大或者数据更多。现在大家对世界模型的解读有很多,我们的核心要素是把机器人的控制问题、机器人基础模型的问题,变成了视频和动作的联合建模问题。
最核心的一点是预测未来的能力:预测我现在要执行的这个动作,会对这个世界造成什么影响,然后用它去做规划。所以τ0-WM 同时学习未来的视觉状态表征和动作状态表征,把视觉动力学学习和面向实际部署的控制策略连接起来。
它有三个组件。一个是视频动作模型(Video Action Model, VAM),能够生成动作,也能预测未来。另一个是动作条件视频仿真器(Action-Conditioned Video Simulator, ACVS),也就是以动作为条件的视频仿真器,能做动作的预演。这两个模块结合起来,再通过 test-time computation(测试时计算),就能在执行前比较不同的候选动作。三个组件合起来,形成了一个从机器人动作预测、动力学建模,到测试时动作优化的完整方案。
DeepTech:我感觉它和其他世界模型不太一样的地方在于,其他世界模型是做预测,但你这里还涉及推理时的在线评价和动作纠正。
罗剑岚:对,它是一个闭环系统。如果只是做预测,就相当于是开环。我们更多是在执行前推理、预测,然后再去执行;执行后到达一个新的状态,再根据新状态和此前预测之间的差别,继续做新的预测。而不是在一个点上预测很长一段动作,然后把这段动作一次性执行完。这就是开环控制和闭环控制的区别。
DeepTech:这个项目最早是什么时候决定立项的?有没有某个契机让你决定推动这项工作?
罗剑岚:从我个人来说,我一直在做类似的事情,只不过现在大家叫它世界模型。我之前的工作,包括强化学习、HIL-SERL、SOP 和 LWD,归根结底和模仿学习的差别在于:模仿学习是看到一个观测值,预测一个动作,它是开环的,是简单映射。就像 ImageNet 一样,你看到一张猫的图片,预测它是猫的概率是多少。
我们坚持的一个理念是,机器人不能只在数据集上学会模仿。它必须能够预测自己执行一个动作之后的后果,必须知道自己执行一个动作之后会发生什么。我在很多工作里、很多场合也说过,解决这个问题的方法可能有很多,强化学习是一种,学习动力学模型也是一种。世界模型其实就是学习某一种动力学模型:你根据现在的状态和动作,预测下一个和控制相关的量,可以是某种 latent state,可以是某种观测值,也可以是某种效用值、某种评分函数。
所以τ0-WM 一开始的目标,就是让机器人在执行前具备预演未来的能力。这是我们过去几年在这条路线上坚持的核心理念:机器人不能只在静态数据集上学会模仿,它必须知道执行一个动作之后会发生什么。世界模型是它的一个容器,也是一种具体实现。具体什么时候开始做,我们已经做了一段时间,整体上是这个思路比较自然的延续。
DeepTech:能不能按机器人执行一次任务的顺序,系统讲讲 VAM、ACVS 和 test-time computation 这三个模块各自什么时候介入、输出什么?
罗剑岚:VAM 是根据图像和当前信息去预测一个动作,这个控制指令可以直接下发给机器人执行。ACVS 是仿真器,根据当前观测值和给定动作,预测未来会发生什么,就跟大家看到的 Google Genie 这类世界模型类似。这两个模块本身是独立的,可以分开直接用。它们共享一个视频 backbone,也就是一个 diffusion transformer,有些权重是共享的,但作为两个模块,功能上可以互相配合。
把这两个模块串起来的,是 test-time computation(测试时计算)。这个概念现在大家说得比较多,比如大语言模型里 o1、DeepSeek-R1 在测试时会“thinking”。在一些简单任务上,VAM 就够了,不用想太多;稍微复杂一点的任务,流程是这样:先从 VAM 里采样出一组候选动作,这些候选动作会被送到 ACVS 里,由 ACVS 对它们的未来进行推演,并对每个动作产生的轨迹打分。有了打分之后,我们选择一个最可靠的动作。这个动作不一定是 VAM 一开始概率最高的那个。
所以整个流程是:基于当前状态,VAM 生成候选动作,ACVS 预演并评价未来,最后执行最可靠的动作。三者是这样一个有机耦合关系。
DeepTech:这一套流程跑一次需要多久?
罗剑岚:我们做了一些优化,整体一个 forward loop 大概是 180 到 220 毫秒,所以基本能接近 5Hz 的频率运行。加上测试时计算会稍微慢一点,但慢得不是特别多。我们也在做一些异步优化。因为测试时计算在逻辑上是一个自适应过程,不是每一步都需要推理。
DeepTech:简单的任务就不需要思考太多。
罗剑岚:对。就跟 GPT 一样,遇到一个简单问题,它也是简单思考一下就直接输出了。
“根本是你自己变强”
DeepTech:这项研究涉及很多不同类型的数据,包括 17,000 多小时的真机数据,6,000 多小时的 UMI 数据等等。不同的数据在模型训练中分别承担什么作用?
罗剑岚:首先最重要的,是真机数据用来打底。我们的数据里真机数据最多。它和机器人本体没有 gap:动作空间、接入过程,还有真实的物理反馈。它是模型能够真正控制机器人的基础。
UMI 数据我们也用得很多。它主要的价值是视觉多样性,能提供比较好的鲁棒性,提升模型对物体、动作模式以及环境变化的泛化能力。因为真机采集通常还是在一些固定场景里,但 UMI 设备可以去到任何地方,进入真实家庭也很方便,它提供的视觉鲁棒性会好很多。
我们也有一些 ego-centric 的人类视频数据,它提供的是人类交互先验,让模型看到更大规模、更自然的物体操作过程。
但这有一个前提:我们是先有了足够多的真机数据之后,才能把这些其他来源的非本体数据用好。随着真机数据 scale up,我们使用其他来源数据的能力也在增强。而不是反过来,拿大量别的数据,再拿少量真机数据去微调。这在我们的实验里不太成立。
DeepTech:还有一些团队的思路是先用非常大量的互联网数据给模型提供基础能力,最后再用相对较小的真机数据做后训练。你怎么看这种思路?
罗剑岚:说 VLA 或者 world model 的时候,有一点值得注意:如果你用了 VLM 的基模,或者你的世界模型里用了别人的视频预训练基模,它里面其实已经包含互联网数据了。我们现在用的大规模 VLM,都用了巨大规模的互联网 QA 数据;视频基模也一样,里面有几千万小时的互联网视频数据,已经训练过了。有可能你再加上去的这些数据,原本就已经被包含在里面。当然,你说额外再加一些有没有用,可能也有用。
但整体来讲,关键是你自己要有更强的 base model。你自身的基础能力上升了,使用其他数据的能力才会增强。
举一个例子,可能不是特别严谨。假设你是个婴儿,再假设你是个二十七八岁的成年人,你使用这个世界上其他知识的能力肯定不一样。究其原因,是你自己的能力在变强。小时候不识字,或者只认识几个字,更不要说从视频里学什么东西。长大了、上完大学,你可以用 ChatGPT,可以看视频,诸如此类,你使用其他数据的能力会显著增强。根本上,是你自己变强。
DeepTech:消融实验里显示加了 UMI 和 ego 数据之后,zero-shot(零样本)成功率明显提高。最终不同数据的比例大概是 6:2:1,还有一些失败轨迹等。这个比例是一开始就有初步设计,还是在不断实验中定下来的?
罗剑岚:有一些尝试,一些不同的试验。但这肯定还不是一个最终的结果,目前看来真机的比例是最多的。严谨来说,我觉得还可以有更好的结果,我们还在不断实验。
DeepTech:数据集中还包括一部分失败轨迹,这部分数据对成功率的提高大概有多大帮助?
罗剑岚:非常重要。τ0-WM 是一个预测模型,根据状态和动作去预测下一步;包括 simulator(仿真器)在内,这些东西都需要具备反事实能力。
我觉得世界模型的一个核心瓶颈,是反事实推断:我现在如果不执行这个动作,会发生什么?我现在执行动作 a,把苹果捡起来了,我确实有观测,这是客观发生的事实。那反事实推断就是,在这个时刻 t,如果我不执行这个动作,这个世界会发生什么?
如果没有这个能力,瓶颈就在于:我学到的模型始终只会顺着“把苹果捡起来”这一条路走。真实世界肯定不会这样。只要有一点点偏差,我就会进入没见过的状态,那我永远不知道怎么办。
解决反事实推断,大体上有两个方面。一个是算法机制:有什么样好的算法能更好地捕捉因果关系。另一个就是数据。数据里一定要有失败的数据和成功的数据,而且最好失败和成功都是 on-policy 来的:我执行我现在的策略,它成功了,或者它失败了。因为是我自己的策略在真实世界里成功和失败,它最贴合我自己的轨迹分布。反例是人工遥操收集的数据。
回到失败数据,如果没有它,你学到的模型永远只会预测一个非常窄的分布。把苹果捡起来是一个特定事件,把它取反,空间是无穷大的。任何不是这件事的情况,它都不会预测,那肯定是不对的。
DeepTech:LWD 里也涉及失败数据。能不能结合一个具体任务讲讲,失败数据在系统里是怎么被记录、使用,并最终帮助模型改进的?
罗剑岚:比如说把笔放进盒子,或者把水龙头拧紧。成功的话,我们会记录它当时的视觉观测、语言指令、机器人动作、状态变化,以及最后是否成功。任务失败,我们也不会把它丢弃。失败轨迹非常有价值,它会告诉模型,哪些动作会导致不可恢复的状态。
具体在τ0-WM 里,VAM 可以根据训练里的失败数据,增强分布的鲁棒性。它会提出多个候选动作;ACVS 因为学习过这些失败数据,知道哪些动作可靠、哪些动作不可靠。如果某个未来推演看起来是在重复过去的失败模式,系统就会把它的概率降低。
回到刚才说的反事实推断,失败数据的价值,不是告诉模型正确答案是什么。它可以告诉模型,哪些动作看似合理,其实是很危险的。
DeepTech:在你看来,学界对失败数据已经足够重视了吗?
罗剑岚:关于学术界,在一些偏理论的文章上,大家已经在小规模下研究得比较深入了,我不想去 take that credit。但在机器人、具身智能领域,我觉得未来大家是不得不面对这个问题的。因为机器人部署回来,肯定会有大量失败数据,不可能只有成功数据。
就像自动驾驶,现在大家也会去做难例挖掘。在高速上平稳直行的那类数据,对今天的自动驾驶来说没有太大帮助。真正需要的恰好是那些 corner case(极端场景):比如在高速上无法顺利掉头,在三岔路口如何驶出,像大海捞针一样去挖掘这种数据。未来我觉得这类数据会越来越多。
从 SOP、LWD 到τ0-WM
DeepTech:今年以来团队陆续发了 SOP、LWD 这几项工作。外界可能把它们分别理解为在线后训练、部署中学习,再到现在的预训练世界模型。你自己会怎么描述这几项工作之间的关系?
罗剑岚:它们整体构成了一个闭环系统。τ0-WM 是预训练的基础模型。SOP 是后训练的基础设施,包括数据回流、模型分发这些分布式基础设施。LWD 是在这套基础设施上的后训练方法,是分布式真机强化学习、在线学习和自主提升的方法论。
在行业里面,这算不算比较前沿的尝试,留给业界去评判吧。预训练模型,加上物理世界的数据闭环基础设施,再加上 LWD 这个后训练方法论,这三者结合在一起,应对的是我一直在说的同一个主题:在部署中学习,从真实经验中学习,并持续提升能力。它们是同一条路线上的不同模块。
DeepTech:这个方向演进背后的核心问题,下一步会是什么?
罗剑岚:核心问题一直是机器人如何进入真实世界。我们做这么多工作,不是为了发 demo,不是为了拍视频。如果机器人只在静态数据集上训练,它会遇到分布外场景。如果只靠部署后学习,只靠 LWD、SOP 去训练,因为预训练模型不够强,它要从头开始探索,会进行大量尝试,而在真实世界里每次尝试都是有代价的,它会犯太多错误。
整体的演进就是:先有一个基础能力足够强的预训练模型,再加上后训练闭环,让机器人部署后持续优化,边部署边学习;再到τ0-WM 这种,让机器人在执行前预演并选择更好的动作。我们一直在解决的核心问题,是如何把真实世界交互的经验、物理经验,转化为持续改进的能力。这是一个核心不变的命题。
DeepTech:有人评价从早年的 SERL 到现在这一系列工作的主线是围绕真机环境做评价,你觉得这个概括准确吗?
罗剑岚:评价确实是一部分。要在部署中学习、去改进,系统必须知道什么是好、什么是坏,一个好的评价体系当然非常重要。不论是 RL 也好、世界模型也好,都要把效用函数或者说价值函数学准。价值函数学得越准,试错次数肯定就越少。比如系统知道哪件事情是 100% 好的、哪件事情是 100% 坏的,你可能都不需要去尝试。每一次尝试的过程,更多是在优化对自身预测的不确定性估计,某种意义上可以这样说。
所以评价是一部分,这是准确的。但整体上,我觉得物理 AI 未来非常重要的一环是:它不同于 ImageNet,不是从大量静态数据里学习。我们也会收集很大规模的训练数据集,这是确定的,但它很大程度上要依靠与真实物理世界的交互,产生大量物理世界经验,并从经验中学习。
DeepTech:τ0-WM 开放了核心代码和权重。为什么做出开源的决定?希望学界基于开源去探索什么?
罗剑岚:总体来讲,开源和闭源都有自己的长处和优势。但具身模型目前处于行业比较早期的阶段,这个时候开源,非常有助于建立整个生态,包括后面的工具链、标准以及使用生态。
以美国为例,Physical Intelligence 他们从第一天就选择开源。大家现在基本上都拿他们的模型做对标,或者直接使用他们的模型。这就是开源的好处:开发者一旦习惯使用这个模型,就会去适应它的生态,后续开发的很多组件也会向这个生态迁移。
我觉得具身智能目前整体处于一个非常早期的阶段,如果没有这样一个好的共同基础,领域发展会比较慢。有了这个开源底座,我们希望τ0 系列能够成为一个共同基础,让学术界和产业界都可以在上面继续探索。它是个基础模型,开发者可以基于它进行广泛探索。
另一方面,我觉得具身智能会成为未来整个物理 AI 基础设施的核心。它会分层,就跟现在的 AI 也有好几层一样:最底层是能源,上面是芯片,再上面是模型。未来的物理 AI 如果大体分层,最底层是本体硬件,上面是数据基础设施,再上面一层是模型层,再往上是应用。
着眼于未来 5 到 10 年的发展趋势,如果要对行业、对学术界和工业界产生持久影响,促进发展的方式之一,是让大家都有一些可以共享的组件。模型一旦被部署进去,它会不断扩展边界。以前机器人编程,我可能要构建分阶段的 pipeline,处理感知、运动规划等层层递进的模块。模型会把这些边界不断拓宽,最后达到它应该到的位置。
国内开源比较成功的大模型,如通义千问、DeepSeek 等,综合来看,开源是让整个行业往前走的一个比较好的方式。
没有真实闭环,很容易变成刷榜
DeepTech:前段时间行业里很多人都在讨论英伟达的 Jim Fan 说的那句“VLA is dead, world action model shall rise”。结合τ0-WM 的经验,你怎么看待这个判断?
罗剑岚:我不觉得 VLA 已经死了,这取决于你怎么定义它。VLA 是什么?Vision-Language-Action model。这里可能有点钻牛角尖:机器人做控制,需不需要视觉?肯定需要。需不需要动作?肯定也需要。我想目前业界争议比较多的,是到底需不需要语言,以及语言使用的方式是什么样的,是否必须依赖自然语言。
总体来讲,现在争议比较少的一点是,至少大部分人同意我们需要自然语言。因为自然语言是描述这些任务最好的工具。当然未来可能会有其他工具,但迄今为止,它是我们开发出来的、手头唯一相对成熟的工具,能够进行符号推理、任务编排以及长程任务拆解。比如执行操作任务,可能包含 18 个阶段,一件事情要做 20 多步,用什么媒介把这些环节串联起来?执行出错时如何纠偏?如何进行逻辑推理?自然语言是人类发明的一种符号化语言,而且业界已经花了巨大精力开发 VLM。它并不完美,但确实是我们手头唯一比较好的、能够胜任此类推理和判断的工具。
VLA 未来是否还会维持现有的架构形态,即把 action tokenize 成另外一种语言,然后三个模态一起训练?我认为这可能得打个问号。
我认为未来依然需要语言,需要语言来进行 high-level 规划和推理。同时,我们也需要下层这些 low-level 的 action model 去做动作执行。τ0-WM 更多是在攻克后一个环节。
DeepTech:在我看来,你的 world model 和很多其他 world model 不太一样,你的终点是给动作打分、让它在真实世界中表现更好,下一步预测可能只是中间产物。
罗剑岚:我们的 video action model,相当于是它的进一步进化。刚才提到,面对简单任务,它可以直接预测动作;稍微复杂一点,我们可以先打分,再做测试时计算。它是一个完整的系统方案。因为 VAM 能生成动作,但它生成的动作不一定是最优的。这就是我们说的开环和闭环的区别。
DeepTech:假设今天有一个团队已经有比较强的 VLA pipeline,下一步它应该补 world model、RL、test-time computation,还是其他部分?
罗剑岚:我觉得应该补上整个闭环,也就是补上整个系统,而不是单补某一个模块。如果是我来做,我肯定会把真实部署的学习闭环补齐:我们有 VLA 能做高层级语言规划;有 video action model、有世界模型来负责动作执行与未来预测;有强化学习或类似机制,能把机器人真实部署中的经验回收回来,让整个基础模型持续进化,数据质量不断提升。这整体构成了一个面向真实部署后的学习闭环系统。
机器人最关键的问题在于:部署之后失败了怎么办?失败数据如何回收?模型如何更新?系统如何迭代优化?如果没有真实物理闭环,单纯做 world model 或 VLA,都很容易陷入离线指标优化,比如热衷于在榜单上刷分。在我看来,这缺乏实际意义,因为它脱离了真实的物理世界闭环。
举个例子。早期的自动驾驶领域,大家曾经热衷于刷一个叫 nuScenes 的榜单,投入了很大热情去优化各种离线评估指标。后来业界发现,这些指标与车辆在实际道路上的表现并没有什么相关性,这种趋势才逐渐冷却。到现在大家都几乎不记得这个东西有什么意义了。
再看机器人领域。我在这个领域做了 10 年,业界在 benchmark 上的投入同样很大。仅从我个人的失败经验来看,我曾经也有一些工作花费了大量时间去优化这些指标,但最终实际效果并不理想。我不是说评估体系不重要,相反,评估是最重要的一环,它本身就是一个开放的科学问题。但如果将其简单抽象成某个仿真的 benchmark,或者追求某个榜单上的排名,10 年前可能就已经有结论证明这种路线行不通,缺乏实际意义。
DeepTech:真实的闭环,尤其是这样一套完整的闭环,需要不少资源。对一个小团队来说,会不会比较困难?
罗剑岚:我倒觉得相反,这恰恰是小团队的机会。目前业界似乎还没有哪家公司能够真正把这件事情极其扎实地落地。要求不必太高,仅需 10 台机器人,在真实世界中部署并持续优化,甚至不需要 7×24 运行,只要能客观实时地反映真实成功率、接管率以及节拍数,并将这些真实数据完整呈现出来。我好像还没有看到这样的例子。
小团队如果决策速度更快,大家齐心协力,反而会推进得更快。因为构建闭环涉及众多技术模块,在一个体量庞大的公司里,通常是流水线作业:一个人负责 A 模块,一个人负责 B 模块,一个人负责 C 模块,预训练团队和后训练团队容易发生摩擦,后训练团队和 infra 团队同样面临协作阻力。相反,在小团队中,如果所有核心成员都能协同作战,迭代速度反而更具优势。
每天都在失败,有时有希望
DeepTech:从真机 RL 到 LWD,再到现在的τ0-WM,外界看到的是一系列方向上的变化。你自己回头看,过去几年真正没有变过的研究问题是什么?
罗剑岚:我没有变的问题只有一个:机器人如何从真实世界交互中持续变强。其他的都是我可以用的工具。RL 是工具,基础模型是工具,世界模型也是工具,VLA 也是工具。机器人是一整个系统,我要把所有的方法论、工具、工程都整合起来,服务一个目标:机器人如何从真实世界交互中持续变强。
我不关心某一次 demo、某一次宣发,这些东西我不是很关心。我之前做过很多算法的工作,也做过系统的工作,做过硬件的工作,做过 pre-training、post-training、human-in-the-loop,诸如此类。如何把真实部署经验转化为模型能力,我的主线一直是大规模真实世界机器人学习,也就是 Real world robot learning at scale。
DeepTech:从一开始做真机 RL 到现在已经十多年了。这个过程中有没有某些失败的经历,或者遇到的困难,让你对这个方向产生过怀疑?
罗剑岚:每天都在失败。经常失败,有时又会觉得有希望。
DeepTech:从来没有怀疑过?
罗剑岚:那倒也不是,也会怀疑吧,也觉得可能会成功。但我到今天都没觉得我很成功,因为最终的目标还没达到。
我觉得是这样,很多人也都说过:如果真的去做一些创新的事情,做别人没做过的事情,它是很难的。很多时候,难并不在事情本身,而是一些外部的、客观的条件,会不断挑战你自己的判断。你做的事情别人都没有做过,前沿的基础研究本身就充满挑战,你基本上就是走在人类认知的边界,不会有人帮你,只有你自己能去做。这件事情本身就很有挑战性,失败概率很大,而且有很多人希望你失败。你的阻力很大,遇到的困难也很大。你越想搞大规模,遇到的困难可能就越大。
在学校的话,失败的代价,我觉得最多也就是一篇 paper 写不出来而已。但随着职业生涯的发展,失败的代价会越来越大。
至少我得到的启发是,我和很多行业前辈聊下来,感觉大家失败是常态。问题是从失败中能学到什么,把学到的经验变成你下一次做梯度下降时一个更好的方向,然后朝着那个方向去强化。
这样的例子有太多了。几乎每一个我们今天看到做出一点成就的人,一开始都是被无比质疑的。我都觉得,如果你一开始做一件事情,所有人都一致看好、肯定成功,这件事情也就没有太大做的必要了:所有人都同意,大家都看明白了。所以你去做这些事情的时候,一开始一定是不断被怀疑、不断受到挑战的。
但这里我们得区分清楚一件事。别人用过去的经验去加权平均,推导出来的肯定是那些结论。你做的如果是一件新事情,那它一定不是用过去的经验加权平均得到的。它一定是你根据内生的逻辑推演,再加上自己观察到的经验证据,推导出来的一套新的逻辑体系。一开始你会受到很多挫折。随着你看到的经验证据越来越多,你再去修正自己的世界模型、mental model 和逻辑链,对某些东西会越来越相信。那就这样,你就接着往下做。
DeepTech:听起来也和训练世界模型很像。
罗剑岚:对。根据我的观察,很优秀的一些 researcher,MBTI 里面可能 INTJ 居多。他们观察世界的模式,更多是靠自己的 mental model,他们有一套自己的推理方法。
但实际操作中,有的人会更有策略一点。坚持这件事情,并不是让你一味地埋头苦干。你也要会转向,要能看到自己离这件事情还有多远。你比整个领域领先 50 年,我觉得没有意义。如果你领先 3 年、5 年,就可以看到它,可以预测未来三年会发生什么,看到当下有什么机会,让自己打开一点,看到更多机会,转过来,然后再接着往前走。有的人很擅长这个。也有的人,就差最后一点点了,他放弃了,那就彻底结束了,也有这样的。如果你做得足够多,就会更好地管理自己,在这些复杂情况下灵活转身。
DeepTech:以你刚才说的三年为准,你希望三年内团队去证明或者做到的一件事是什么?
罗剑岚:我们希望证明,机器人的基础模型可以在真实场景中持续部署,持续收集物理交互经验,持续后训练,其能力随着部署规模增长而提升。我觉得到那时,这个领域会进入一个新的阶段。
这不是做一次性的 demo,而是建立一套新的机器人闭环学习范式:从预训练到部署,再从经验中学习、后训练、提升,整体形成一个数据飞轮。如果这个闭环跑通,具身智能才具备规模化的基础。
DeepTech:要检验这个方向的进步水平,你更看重哪个指标?
罗剑岚:我不会只看成功率。成功率固然重要,但很容易被 hack,比如被特定任务、特定环境、特定 demo 放大,你可以针对这些东西去调。
科学的评估应该是一个组合指标:第一是单次尝试的成功率;第二是失败恢复能力;第三是部署机器人的数量和部署时长;第四是机器人模型的改进速率,也就是真实世界数据闭环的规模和模型改进速度。
如果只能选一个指标,我会选:在真实场景里,机器人无需人工干预、持续完成任务的时间和范围。或者换一个指标的话,就是接管率。这个指标很重要,目前业界在具身智能领域还没有广泛对它做比较。在自动驾驶领域,这是一个非常重要的评估指标:人工接管的频次。例如特斯拉最新的 FSD,会直接把这个指标显示在车的大屏上,FSD 开启时,人工接管的频率是多少公里一次。当这个指标低到一定程度,比如万分之一,整个行业的数据飞轮就能转起来,经济账也就可以算过来。
这比关注单个榜单或某个 benchmark 分数,更能说明具身智能是否进入了下一个阶段。
参考资料:
1.https://arxiv.org/pdf/2606.01027
运营/排版:何晨龙
注:封面/首图由 AI 辅助生成
热门跟贴