打开网易新闻 查看精彩图片

作者 / Soren

一条更慢,但更稳的路

一条更慢,但更稳的路

在具身智能最喧嚣的两年里,一个 00 后博士生的名字,悄悄在开源机器人社区流行起来。王高天,中科大出身,目前在美国读博士。他做的不是又一个 Demo,也不是一个融资故事,而是一个被开发者称为“可能是下一个 ROS”的开源项目——XLeRobot。

没有公司、没有预算、没有团队常驻全职写代码,但这个项目短时间内在 Github 上积累了几千颗 star,并出现在越来越多的开发者 Slack 群和论文实验复现里。它甚至已经开始影响海外一些硬件企业的设计方向,因为他们发现,这是少数能在真实世界跑起来、成本又足够低的软硬件一体方案。

王高天并没有主动站到舞台中央,但行业的动能正在把他推到那里。

他对行业的判断极为冷静,甚至是“叛逆”。在这两年里,VLA(Vision-Language-Action)大模型几乎成为机器人公司创业的标配,“堆数据能带来通用智能”成为资本愿意相信的方向。

但他几乎在所有场合都表达一个观点:VLA (端到端)是条死路,至少在未来三到五年内,它无法带来真正的通用能力。

他解释得不急不躁,却足够清晰。“自动驾驶只有两个控制维度,机械臂是六自由度,加上三维感知,数据量需求是指数级增长。”

如果自动驾驶用了全球几十万辆车跑三年,才积累“可用”的数据量,那机器人呢?“光靠堆数据,是不可能堆出通用能力的。”

他在Hackathon上见过太多 Demo,与那些行业会议上播放的视频没有本质区别:在固定场景内训练、在固定条件下复现。“它们很好看,但不能泛化。”他说。

真正的难度,是理解世界、规划行为,而不是语言描述。

“我更相信世界模型和分层结构的路线。”他说。他提到 Yann LeCun 的思路,也强调行业现在把“JEPA世界模型”理解成视频生成,是误读。“生成视频不是理解世界的方式,它只是看起来像而已。”

相比算法,他更清楚落地的第一性原则是:低成本、可复现、易使用。

这促使他设计了 XLeRobot 的核心路线:轮式底盘 + 双臂 + 简单抓手,用最朴素、最易扩展的硬件形态,跑通从遥操作、共享控制到自主操作的能力链路。

4000元不到便可搭建起一套XLeRobot
打开网易新闻 查看精彩图片
4000元不到便可搭建起一套XLeRobot

“我不认为机器人一定需要很大的端侧算力。”他的观点同样反主流。他认为轻量端侧 + 云端能力共享更可能让机器人进入家庭,“不是每一台机器人都要像一台 GPU 服务器。”

从这点看,XLeRobot 更像一种“入门级通用机器人平台”,先跑起来,再采集真实场景数据,再逐步提升算法能力。比起“直接从模型推导世界”,他更相信“先让机器人活起来”。

与此同时,他也在构建另一个生态:社区。开源不仅让更多人能用,也让更多人参与修改、复现、补全能力。这是一条更慢的路,却可能更稳。他反复提到一句话:“机器人真正难的是重复、稳定、可扩展,而不是一次性的 Demo。”

他的表达并没有创业者式的煽动,但你能感受到一种更深的野心:他想建一个基础设施,而非一个 Demo。

右三为王高天
打开网易新闻 查看精彩图片
右三为王高天

当我们问到未来规划时,他笑了一下,说目前的优先级很简单——先把手上那篇博士论文收尾。距离预计毕业还有一年半时间,他对未来方向并没有仓促定论,但他说:“我还在探索。可能会继续研究,也可能会创业,但一定会继续做 XLeRobot 相关的事情。”

长线、耐心、反主流,是他身上最突出的三个特点。一个没有过度设计未来的年轻研究者,却在做一件极难、极长周期、极需要 conviction 的事。

在一个被资本和 Demo 推着快跑的时代,他选择了一条更慢、更稳的路。

01. 低成本革命XLeRobot项目

01. 低成本革命XLeRobot项目

硅基新物种:从萌生想做 XLeRobot,到开源发布,整个过程用了多久?

王高天:第一版开源其实很快。我最初只是买了一台机械臂,做了些简单任务测试,发现其性能比预期更稳定,例如能稳稳拿起水瓶,逆运动学调起来也不错,我判断它具备承担基础任务的能力。

基于此,我加了一个底盘——底盘本身已有开源项目,我主要是重组了硬件。第一次公开发布距我接触这款机械臂大概只有两三周。发布后大家对这个结构和概念的兴趣超出预期,尤其在小红书上获得了很多关注。

之后我决定把它做成更完整的项目,用了约一到两个月完善 3D 设计、遥操作算法和视觉识别等模块。期间导师也支持,一位来自 NTU 的实习生协助我做部分代码工作。

时间线大概是:4 月初第一次接触机械臂,5 月发布首版 Demo;再经过两三个月,到 8 月完成代码、仿真、VR tracking、遥操作等能力,并通过遥操作实现多种家务任务 Demo。这个 Demo 发布后,XLeRobot 才真正“火”起来。

短短四个月时间迎来突飞猛涨的GitHub标星
打开网易新闻 查看精彩图片
短短四个月时间迎来突飞猛涨的GitHub标星

硅基新物种:项目走红的速度很快,GitHub 标星暴涨、国内讨论热度高。从突然爆火到现在,你对项目的期待有变化吗?

王高天:刚爆火时确实影响了我的心态。当时会产生一些“这可能就是未来能做出大事甚至能成立公司的东西”的想法,也有很多人来接触、讨论。但这段时间沉淀下来,再结合自身长期使用体验和大量外部反馈,我的判断更冷静了。

这个平台的最大优势很明确:足够便宜、足够容易上手,任何有兴趣的人都能快速入门,因此能形成非常大的用户基数,这对开源生态非常重要。

但它的局限也同样清晰。在现有电机与整体架构下,即便持续优化,它更适合作为开发者平台,而不是可以直接卖给消费者的成品产品。

因此我最近在调整规划,一方面考虑在硬件层面升级电机等关键部件,推动项目往产品化方向走;另一方面,利用现有生态继续扩展,为用户提供更完善的 VLA 训练代码,让他们能更好地训练机器人,实现多种任务。

硅基新物种:听起来你并不是将XLeRobot视为个人或小项目,而是更希望以开源社区体系的方式推动它?

王高天:是的。我认为它对初创团队、具身智能爱好者和研究者来说,都是目前最方便、成本最低的机器人平台之一。

过去两周我连续跑了两个湾区的 Hackathon,一个是 SEEED ×Hugging Face× NVIDIA 的家务机器人黑客松,另一个是 CalHacks,像 pi、Dyna Robotics、BitRobot、1X、OpenAI 的同学也都参加了。我本来是去做 mentor 的,但最大的感受其实是——我还太菜了(笑)。更重要的是,我第一次意识到:原来真的有这么多人在用 XLeRobot 做各种有意义的事情。

虽然活动主题叫 VLA,但大家做的远不止训练 VLA。本地同学在搞 VR 遥操 App、语音识别、触觉传感;有人把 XLeRobot 接到了李飞飞团队的 Behavior Challenge;也有人在做双臂家务任务:叠衣服、倒酒、做三明治、开抽屉、做抹茶……这些看似简单的细节,是我以前独自开发时没有想象过的生态画面。

我以前也会有点 emo,觉得自己做出来的这个平台成本低、性能也普通,技术含量算不上高,担心是不是没有价值。但这次看到那么多人愿意跟进、愿意基于它做新的东西,我反而更确定了。开源平台的意义从来不在于一个人能完成多少,而在于多少人愿意一起把它往前推。

所以未来我还是会坚持做下去。一方面把硬件继续打磨,另一方面把整个配套的算法与工具链都补上:VR 遥操、Web 端控制、手机 App、VLA 训练框架、Isaac 仿真环境……这些不是“锦上添花”,而是让开源机器人真正能走向大众开发者的基础设施。

硅基新物种:低成本是它最突出的优势。不到 4000 元就能组一台,而且模块化、上手快。但低成本必然伴随取舍,你当时是如何判断哪些功能该保留、哪些可以简化?

王高天:可以从两个角度理解。

第一,是生态优先。XLeRobot 的核心基于 Hugging Face 推出的 LeRobot 机械臂,要降低使用门槛,就应尽可能与其生态保持一致。这也是项目迅速传播的原因之一。Hugging Face 的联合创始人与 CSO 在 Twitter 上高度评价并转发了我的视频,带动了全球关注。因此,为了让开发者“一上手就顺畅”,系统的适配性优先级高于堆配置。

第二,是使用体验。比如底盘,很多人质疑为什么仍用舵机驱动,噪音大、扭矩小。但从开发便利性考虑,把接线、电机、驱动系统统一在同一生态下,对初学者和开发者更友好。

不过我也在做优化。最初使用全向轮底盘,灵活但用户反馈“不够稳、易晃”。我改为更简洁的双轮差速结构,牺牲一个自由度,却大幅提升稳定性,对入门开发平台而言是合理取舍。

硅基新物种:如果把预算从 660 美元提高到 1500 美元,你会优先把钱加在哪?

王高天:电机。机器人本质上就是多个电机的组合。如果能用尽量少的电机规格完成整机设计,是最优解。

我现在正在与高擎机电合作,探索一种成本略提升但仍能把整机价格控制在2000–3000 美元左右的方案,形成可面向家庭消费场景的产品化版本,而不是只停留在开发者社区。后续即使做产品化升级,我仍希望保持开源,真正的成本主要就是电机成本。

硅基新物种:所以下一代 XLeRobot 的定位,会是电机升级、价格更可控、并从极客开发者扩大到面向 C 端消费者?

王高天:对。形态上会延续现在的结构,但电机的负载、精度和柔顺性都会显著提升。这样一来,现有 XLeRobot 上训练得到的数据和策略(policy)可以直接迁移到更高性能的版本上。

XLeRobot 套装
打开网易新闻 查看精彩图片
XLeRobot 套装

02. 硬件收敛,软件定义

02. 硬件收敛,软件定义

硅基新物种:你之前提过“硬件形态基本定型”,是什么让你做出这个判断?这也直接影响了 XLeRobot 的设计理念?

王高天:是的。我看过很多机器人 Demo,也对比了不同公司的路径。真正能执行家务任务、且不是围绕“人形噱头”做营销的团队,大多采用最基础的六自由度机械臂。反而是强调人形形态的机器人,目前鲜少能在线下真正完成实用任务。

这让我认为,第一批能落地家庭场景的机器人,其硬件形态基本已经确定:双臂 + 轮式底盘 + 头部摄像头 + 手部双摄。在这个配置下,大部分家务任务已足够覆盖。这也是我当前依然坚持的认知。

硅基新物种:既然形态确定,那硬件后续就是零部件迭代?

王高天:对。我本职是做算法,从算法视角看,现有多数机械臂已经够用。用松灵或方舟的机械臂做遥操作,已经覆盖绝大部分家务场景。关键问题不再是“硬件能不能做”,而是“如何让机器人学会像人一样操作”。因此核心不在硬件突破,而在操作智能的训练与迁移。

硅基新物种:如果硬件已收敛、软件成为核心,那是否意味着机器人正进入“软件定义阶段”?

王高天:我认为很大程度上是。比如 Dyna Robotics,他们专注软件,硬件直接采购现成机械臂。我也观察到中美已有大量团队在用关节电机搭六轴机械臂,这说明硬件门槛正在显著下降。

如果在现有机械臂形态上,软件能力能突破,机器人应用就能快速规模化落地,不论是 B 端还是 C 端,无需等“双足平衡”等更复杂形态成熟。我比较乐观:如果算法足够好,三到五年内,机器人有可能真正走进普通家庭。

硅基新物种:软件的开放标准,会不会成为下一阶段竞争的焦点?

王高天:这是我做 XLeRobot 的目的之一。我认为下一波竞争一定围绕生态与软件展开,而 Hugging Face 的 LeRobot 系统已经形成了很大的先发社区基础。LeRobot 本身 Star 已超过 1.5–1.6 万,而 XLeRobot 最近也突破了 4000 Star。这说明生态效应已显现。

我的计划是:先在几个月内推出一套开源、但具备更强产品性能的硬件平台,随后与 XLeRobot 生态结合,在其上持续开发更多算法。

硅基新物种:具体指产品的哪些能力提升?

王高天:主要是机械臂的负载能力与精度。目前舵机负载只有几百克,但换成关节电机后,可实现 3–4kg 的稳定作业能力,场景覆盖会大幅提升。此外会考虑加入升降机构等增强结构。整体形态与一些成熟厂商类似,但我的目标是提供一个开源、可低成本获取的版本。

目前行业内一台同类硬件要三四十万人民币,我希望真正能进入家庭的机器人成本最多 3–4 万元就足够。这也是我认同的一点:硬件已不再是主要瓶颈,真正的难题是如何让机器人长期稳定地运行在真实生活中。从稳定性来看,轮式机器人会比双足更先落地。

硅基新物种:你是软件背景,硬件与生态结合更多依托合作伙伴。既然你更专注软件与 LeRobot 生态,那在开源项目的技术栈中,哪些环节最需要社区共建?

王高天:虽然 Star 很多,但目前整个技术栈仍偏有限。现在大家主要做的仍是把主流 VLA 模型(如 Pi0.5、RT-1/RT-2 等)直接部署到机器人上,本质还是在做 Behavior Cloning:为单一任务采集一百多条数据,让模型学会重复。但一旦换场景或条件变化,效果大幅衰减。

社区接下来更需要在不同模块上形成协同贡献,包括但不限于:

1、场景理解与导航(Navigation),例如只用 RGB-D 或双目摄像头完成居家 3D 重建、语义理解、高层任务规划,以及在家中自然流畅移动的导航策略。

2、视觉感知(Perception),包括 CV 算法、目标识别、数据预处理等底层能力。

3、操作智能(Manipulation),包括 Planning、World Models,以及在特定任务上有效的 VLA 策略。

目前各方向都有很多人在做,但缺少一个统一平台把成果沉淀、整合,并能在一台机器人上端到端跑起来。我认为 XLeRobot 可以成为那个平台。

王高天与业内伙伴交流
打开网易新闻 查看精彩图片
王高天与业内伙伴交流

硅基新物种:如果最终收敛到一台标准化机器人上,是否意味着所有算法都围绕同一构型统一?

王高天:可以理解为“统一运行载体”,而不是“统一形态”。我希望这个平台在硬件设计上保持尽量简化,不需要像人一样行走,也不需要五指灵巧手,用软夹爪即可满足大部分需求。核心目标是让各种智能算法能在同一平台上汇集、验证与迭代。

理想状态是:在这个开源、低成本的平台上,能够逐步实现“初步通用智能”。尽管硬件本身可能暂不支持复杂的手内操作,但现阶段更重要的是建立一个公共的、人人可用的实验与验证平台,让社区把算法、思路沉淀下来并共享。

硅基新物种:但 XLeRobot 的外形与人形机器人差别很大。如果大家都在这台平台上贡献数据,会不会与未来人形路线的割裂?数据能迁移吗?

王高天:这是一个常见误解。我的观点有两点。

首先,通用智能与人形外观无必然关系。机器人之所以模仿人形,主要是为了更好地进行可迁移的避障与姿态控制。但这些能力在机械臂领域已有成熟的 Motion Planning 算法,不依赖“长得像人”。

其次,大部分策略是“末端控制(End-effector Control)”层面,可跨形态迁移。当前无论是人形还是机械臂的研究,数据采集的核心都集中在末端位姿(手尖位置和方向),而非整条手臂的姿态轨迹。因此,只要是六自由度机械臂,就能满足末端控制策略的迁移。换句话说:训练出的策略不依赖具体关节结构,完全可以迁移到不同的机械臂,甚至未来的人形平台。

所以在我看来,机器人要真正落地,不需要与人类外形一致;而基于六自由度末端控制训练出的策略,也能较容易地部署到异构机械臂上。

XLeRobot 设计细节
打开网易新闻 查看精彩图片
XLeRobot 设计细节

03. 商业化边界取决于硬件性能

03. 商业化边界取决于硬件性能

硅基新物种:xlerobot的讨论度和影响力都很高。你虽然暂不打算将它商业化,但有没有想过它的商业边界在哪里?什么阶段可能适合商业化?

王高天:商业化边界主要取决于硬件性能,我现在有两条路径。

第一条,现有 XLeRobot 形态(开源版)基于 Hugging Face 与 LeRobot,定位生态+开发者+教育平台。商业化方式会偏社区与教育,例如作为 STEM 和具身智能入门平台,我认为教育市场本身就有不小的商业空间。

第二条,升级硬件后的产品化版本在电机等硬件提升后,可覆盖更多场景。虽然仍是开源,但稍作产品化包装后,可直接落地应用。室内环境下,无论 ToB 还是ToC,都有较广泛机会:商场导购、超市理货、家庭家务等。只要不涉及楼梯、具备电梯,这类轮式机器人都能胜任许多实际任务。

换句话说,开源版偏生态与教育,升级版偏应用与产品化。

硅基新物种:说到落地应用,你们有一个视频很出圈,视频中XLeRobot 会浇花、和宠物互动,讨论度很高。

王高天:对。那段视频里很多动作实际是遥操作完成的。但这并非例外——包括近期讨论度很高的一些机器人公司,哪怕宣称“明年上市、明年开卖”,演示中往往仍主要是遥操作。本质上,无论是估值数十亿美元的公司,还是几万美元一台的机器人,真正要完成任务,当前仍高度依赖遥操作。

这也是我希望先把硬件平台搭出来并落地的原因:让机器人先在家庭场景里“用起来”。家庭陪伴、基础家务,这些都不需要人形形态。

路线可以参考一些已经验证过的模式:当硬件满足最低可用标准,就能直接部署到用户家中;用户授权后,机器人可支持远程操控。如今我正与一家名为 Bitrobot 的团队合作,他们在搭建基于开源生态的遥操作平台,让世界各地的用户可以远程操作其他人家的机器人完成任务,并获得奖励或 Token。

这个路径与有些公司的模式类似,但面向的是开源生态,成本、人力与硬件投入都更低。如果短期 3~5 年内通用智能框架还无法完全实现,我认为遥操作会是非常有效的过渡路径。

硅基新物种:但遥操作会有泛化性问题吧?

王高天:是的,因此我更看好“共享控制(Shared Control)”路线。不是让机器人完全自主,也不是完全依赖遥操作,而是人机协同。

举例来说:如果我出差在外,我可以通过手机 App 控制家中的机器人执行任务,例如关灯、开门、取物等。与传统 VR 遥操作不同,这需要机器人具备一定自主能力,而人类只需监督和补充控制。

目前最基础的 pick-and-place,按现有技术已能较稳定实现。因此从 shared control 切入,是一个更现实的折中方案。

硅基新物种:你刚才提到 Shared Control,这个愿景听起来有点像过去智能家居、智能音箱、扫地机们常提的“家庭智能终端”故事,只是主角变成了机器人?

王高天:确实有相似之处。但核心差异在于,机器人拥有末端执行器(夹爪)并能直接与物理世界交互,它的通用性远超智能家居设备。

Shared Control 更多是一种阶段性过渡方案。只要硬件具备形态和交互能力,落地方式可以有多条路线:用户自主遥操作、授权他人协助遥操作、在限定区域完成任务等。在这一过程中还能收集训练数据,提升策略,最终走向自主智能。

从落地路径看,这是一条从“能用”到“好用”再到“智能”的完整链路,而不是局限于某一个阶段。

硅基新物种:硬件上,你现在是与国内供应链合作?

王高天:是的。美国也有几家做机械臂的,但我观察下来,最终还是需要与中国供应链合作。尤其像我这样从底层做起的路线,和国内制造端、硬件供应端建立早期合作是最优解。

硅基新物种:为什么没有选择海外机械臂厂商?因为贵吗?

王高天:一方面确实成本高,另一方面他们的开源精神不够强,更多是为了卖机械臂。我希望依托 Hugging Face 和 NVIDIA 的生态,以全开源方式推出平台,无论在设计还是使用上,都更贴近开源开发者,而不是以“成品心态”来做。我未来希望做到的是:性能上接近产品,但硬件与组装尽可能保持简洁和可复制性。

XLeRobot 产品
打开网易新闻 查看精彩图片
XLeRobot 产品

04. VLA退潮后,新技术路线接棒

04. VLA退潮后,新技术路线接棒

硅基新物种:国内过去一年机器人创业非常火热,你在海外怎么看这一波浪潮?考虑回国创业吗?

王高天:国内确实出现了一批很值得关注的公司。我比较看好的是轮式双臂方向,比如银河通用、星尘智能这类做脚踏实地应用的企业。我认为他们路线务实,可能真正跑出来。

但也看到大量跟风型创业,尤其是在灵巧手、人形机器人上做“秀肌肉式展示”的团队很多——能跳舞、能做花活,但与真实应用距离大。我不太看好这类方向。宇树是例外,他们走的是“研究机构与全球教学平台”路线,不同赛道。

我和业内人士也讨论过,目前很多公司押注的是“大模型+堆数据+端到端VLA”路线。我认为两三年内行业会意识到,这条路径无法直接通向通用智能。因此,与之绑定的一大批公司会在未来 2~3 年快速退潮。

硅基新物种:你判断“两三年内会有大量 VLA 端到端路线的公司倒下”。对具身智能未来的几年,你是偏悲观吗?

王高天:我对技术趋势本身是乐观的,包括硬件成熟度、各个方向的研究进展。我相对悲观的是某些具体路线的可行性预期:

  • 三到五年内,用“堆数据”堆出通用智能不现实;
  • 人形双足、灵巧手这类路线短期内很难出现真正可规模落地的产品。

反而是轮式+双臂+夹爪的简化形态,叠加智能算法,会更快进入真实应用。

硅基新物种:能否集中讲讲你们认为 VLA 端到端路线最大的问题在哪里?最“不买账”的点是什么?

王高天:主要有三个原因。

首先,类比自动驾驶并不成立:维度差异带来数据量指数爆炸。业界常用“自动驾驶靠堆数据成功”类比机器人操控,但两者本质不同:特斯拉用了数百万辆车、数年时间,才积累够自动驾驶训练数据。而机器人世界比道路世界复杂太多。不同形态、不同任务、不同环境,会让“堆数据”变得极其低效甚至不可行。

第二,VLA 论文和 Demo 多,真实泛化与落地少。虽然 VLA 端到端路线已经火了很久,但成果主要停留在论文 Demo 或短视频层面。能真正落地的场景依旧很有限,而且高度依赖特定环境训练。

现实情况是,即便一些知名团队发布 Demo,其本质和我在 Hackathon 看到的学生作品并无本质差别——都是在一个固定场景采数据,训练,再部署。

第三,是缺乏对“世界的可解释建模”。我更认同 Yann LeCun 强调的世界模型(World Model)思路:机器人必须理解物理世界的规律、因果与未来状态演化,才可能产生通用智能。然而现在很多自称“世界模型”的研究已经跑偏,变成了视频生成。仅靠生成视频无法支撑机器人对世界进行因果推理、预测与规划。

要达成通用智能,需要一种新的架构,而不仅是更大的模型或更多的数据。

VLA 是有价值的,但它更像是专项任务的加速器,而不是通往通用智能的主路径。真正通向通用智能的一定是具备可解释性、分层结构和世界建模能力的框架——而不是单一端到端堆数据。

硅基新物种:你不太看好端到端路线。你的观点有过改变吗?

王高天:不算“转变”,更像“取其所长”。我并不主张完全端到端的 VLA,但也不会拒绝主流模型和算法,关键是“怎么用”。我现在的做法是:使用扩散模型或视觉模型,但把它们放在更底层、可度量的状态空间上,做可解释、可控制的建模与部署,而不是把系统做成一个不可追溯的黑盒。

硅基新物种:你更倾向于基于物理的分层架构?

王高天:是的。

硅基新物种:你如何判断这条路更值得投入?

王高天:一方面来自与神经科学朋友的交流,大家普遍认可“世界模型”式的架构更接近人类认知;另一方面,我观察到不少 VLA 的做法仍停留在行为克隆(behavior cloning)与数据堆叠,即希望通过规模化数据获得“全能模型”。我不太认同:机器人需要先形成对物理过程的可靠认知,再基于此制定策略,才能实现真正的泛化。

硅基新物种:分层架构还有一个好处是可追溯、可替换。

王高天:对。这也是开源社区的价值。如果分层框架搭好了,每个部件都能独立更新与调试。比如视觉模块,之前用 SAM-2,后来有 SAM-3,就可以平滑替换,不必重训整个系统;同时整个数据与控制流也更透明,便于定位问题,不会被“端到端大模型”整体绑死。

硅基新物种:除了数据之外,在“算法、架构、算力”这三驾马车中,后两者也存在明显的提升空间?

王高天:我现在更关注的不是单点上的算力或模型规模,而是算法框架本身是否正确。如果框架选对了,其实未必需要堆很夸张的算力,也能以较低成本训练出具备通用能力的控制模型。

这一点可以参考最近我很认可的一篇工作——MT3(Multi-Task Trajectory Transfer)。它没有依赖大模型,也没有堆数据,而是把机器人操作拆成两个独立又通用的阶段:对齐(定位)和交互(执行)。前者依赖几何推理,后者复用历史经验。换句话说,它不是试图“学一个大而全的策略”,而是把问题拆开,让每一块都更可控、更稳定。

更重要的是,它完全不追求模型端的算力堆叠,而是用一种非常“工程化”的方式实现泛化:靠检索、靠经验复用、靠任务结构的分解。所以它才能做到“一条演示学会一个新任务”,在 24 小时里扩展到上千个任务。

我个人非常赞同这种思路,不是硬把智能压到模型规模里,而是重新组织任务与数据,让系统本身的结构变得高效。这比简单扩算力、扩参数更接近真正的通用机器人路径。

在架构层面,我倾向的路线是:机器人不必在端侧部署大型算力,而是以轻量端侧 + 云端协同的方式工作。本地负责实时控制、避障等时延敏感逻辑;云端负责长期规划、策略更新、认知模型。这比“每台机器人都塞一个大模型”更现实也更可扩展。

所以对我来说,算力不是最急迫的问题。框架选对了,算力才会用在对的地方。而一旦框架不对,算力越大,可能越偏离真正可落地的具身智能。

排版运营 /Teagan

- End -