自变量WALL-B ：以世界统一模型架构，解锁进入家庭能力|新论文|机器人|模态|翻译

作者：吕鑫燚

出品：具身研习社

鲜少有人意识到，具身智能不是在模仿人，而是对人类行为的精准解构和复现。

更具体一点来说，人形机器人从来不是在逐帧模仿人类的动作轨迹，更不是靠海量示教、视频投喂训练出来的 “动作复刻机器”。它真正要完成的核心命题，是拆解人类完成一个行为背后的完整决策闭环。就像你不会专门去训练把桌子边缘的盘子往里推推这个动作，但这件事情则是机器人融入生活中一定会遇到的问题。

从环境的多模态感知、任务的意图判断、全局的动作规划，到末端的微调、实时的误差修正、突发状况的应急应对，把人类凭借本能和经验就能下意识完成的动作，拆解成可被算法理解、可被硬件执行、可在不同场景中自由迁移的逻辑单元。

而我们所说的复现，从来不是在固定场景、固定条件下完成一次严丝合缝的动作复刻，而是让机器人拥有和人类同源的 “行为通用能力”。就像人类学会了 “端取” 这个动作，就能端纸杯、玻璃杯、易碎的陶瓷碗，能在平稳的桌面端、在颠簸的移动场景中端，能给自己喂水、也能精准地给他人递物。具身智能要实现的，正是这种基于底层行为逻辑的、跨场景的能力迁移，而不是永远困在预设指令里的 “提线木偶”。

因此，具身智能不应陷在模仿人类的陷阱，而是找到属于自身的“Born this way”

自变量机器人前不久发布的新模型WALL-B正是对这一困局的精准解剖。

WALL-B是全球首个基于世界统一模型架构（WorldUnifiedModel，WUM）的具身智能基础模型，是一次从底层架构到训练范式的全面重写，标志着具身基础模型从VLA架构向原生多模态融合架构的重大跨越。通俗而言，这意味着机器人从 “基因层面” 就具备了理解物理世界、解读行为意图的能力，能够由内而外地构建起与真实世界相匹配的认知逻辑，而非停留在 “照猫画虎” 式的表面模仿，只知其然不知其所以然。

只有机器人基因里就更贴合人类的行为模式与认知逻辑，具身智能才能真正无缝融入人类社会。

而这一愿景的实现，既非遥不可及的未来，也不是孤立的技术验证：它将在 30 多天后成为现实。

我们习以为常的「下意识」动作，是人类智能最精妙的体现。不妨用「做一碗番茄炒蛋」这个最普通的家务来拆解问题。

一个普通人做饭时，是多感官全开的状态：眼睛要分辨番茄的成熟度、鸡蛋的新鲜度，还要留意灶台的火候；手要感受菜刀的重量、番茄的软硬，颠勺时能精准感知锅里食材的分量；耳朵要听油烧热的声音，判断什么时候下鸡蛋最合适；甚至皮肤能感觉到窗外吹进来的风，顺手把快要被吹到锅里的厨房纸挪开。整个过程行云流水，所有信息是同步输入、同步处理、同步输出的。

我们从来不会把一个完整的动作拆成「识别物体→理解目标→生成轨迹」三个孤立的步骤，而是让视觉、触觉、听觉、本体感在大脑中瞬间融合，形成对当下场景的整体判断，然后自然而然地做出反应。

但长期以来，机器人恰恰缺少这种「下意识」。

基于 VLA（视觉 - 语言 - 动作）架构的机器人，做这件事就像三个互不认识的人在接力：视觉模块先识别出「这是番茄」「这是菜刀」，把结果传给语言模块；语言模块理解「把番茄切成块」的指令，再翻译成动作语言传给动作模块；动作模块最后生成一条预设的切菜轨迹。

数据在这三个模块之间每传递一次，就会发生一次信息损耗，这就是为什么我们总看到机器人切菜要么太轻切不动，要么太重把菜剁烂。它根本没有「看到」完整的世界，只是在执行一串翻译过来的命令。

自变量机器人刚刚发布的世界统一模型 WALL-B，第一次真正试图解决这个问题。它没有在 VLA 架构上修修补补，而是从底层重构了机器人的「大脑」，采用了全球首个世界统一模型架构。

这个思路其实很像苹果当年推出 M1 芯片时的革命。在 M1 之前，电脑的 CPU、GPU、内存各自独立，数据需要在不同部件之间来回搬运，产生大量延迟和损耗；而统一内存架构让所有处理单元共享同一块内存，数据不需要再搬家，性能直接跃升了一个量级。

在机器人领域，VLA 架构就像是 M1 之前的电脑，视觉、语言、动作三个模块各自为政，就像三个只会说自己方言的人，需要层层翻译才能沟通。而 WUM 架构的核心理念，就是把视觉、语言、动作、物理预测等所有能力整合，彻底消除模块之间的边界和数据搬运的损耗。

这意味着WALL-B 第一次实现了真正的「多模态进、多模态出」。它不再是「先看、再想、再动」，而是整个动作执行过程没有任何延迟，就像人类的「下意识」一样自然。

WALL-B 因此拥有了「原生本体感」。它不需要盯着自己的手臂，也不需要依赖外部传感器，就能内在地知道自己的身高、臂展，知道自己能不能够到书架顶层的书，能不能穿过厨房的窄门。这种内生的空间感知能力，是之前所有机器人都不具备的。

更重要的是，WALL-B 和所有之前的机器人最大的不同，在于它理解这个世界运行的基本规律。它知道重力会让悬空的物体掉下来，知道摩擦力会让推出去的箱子慢慢停下，知道惯性会让装满水的杯子在移动时洒出来。当它看到一个盘子一半露在桌沿外，不需要见过一模一样的场景，就能预测到「这个盘子会掉下来摔碎」，然后主动伸手把它推回去。

这种对物理规律的理解，才是机器人能在真实家庭中生存的关键。家庭环境是世界上最随机、最碎片化的场景：今天孩子把玩具扔在沙发上，明天猫把水杯打翻在地毯上，后天你买了一个新形状的碗。你不可能把所有可能的情况都放进训练数据里，但物理规律是永远不变的。

WALL-B 正是抓住了这一点。它不需要针对每个家庭重新训练，只要掌握了基本的物理常识，就能在任何一个从未去过的家庭里应对新场景。就像一个第一次去朋友家做客的人，不需要别人教，也知道不能把热水杯放在木质茶几上，知道开门时要注意后面有没有人。

更符合人类行为本质的是 WUM 架构不会害怕失败，目前主流机器人在任务失败后通常直接停止，而WALL-B 的行为模式则完全不同：它在失败后会调整策略再次尝试。成功后会将经验直接更新到模型参数中。它会从错误中学习，会在和世界的交互中自我进化。

人类的「下意识」，是几百万年进化刻在基因里的本能。而机器人的「下意识」，才刚刚迈出第一步，当机器人走上发布会舞台上，捡起王潜随意丢落的纸团，或许正是具身智能真正走进我们生活的开始。

所有医生在刚上岗的时候，都会面临一个转折点：知识是从课本里学的，但人不会照着教科书生病。

这个现象和机器人进入真实世界如出一辙。在绝对完美的实验室环境里用标准化数据喂养，永远训练不出一个能解决实际问题的机器人。

自变量把这种数据形象地称为 "糖水数据"干净、可控、量大，就像糖水一样甜，但除了甜没有太高营养价值。用这类数据训练出的模型，能精准完成实验室里预设的每一个动作，却无法应对真实家庭中随时变化的自然光、随意摆放的物品、孩子和宠物的随机动作。

与之相对的是 "牛奶数据"。真实家庭环境中采集的嘈杂、多变、充满随机性的数据。这种数据采集成本高、获取难度大，但却是真正能让机器人 "长身体、更聪明" 的营养来源。

自变量机器人选择了这条看似最难的道路，团队进入了数百个真实家庭进行模型训练。有的家庭地面散落着拖鞋、快递箱、玩具和袜子；有的家庭中猫会突然跳上桌子；有的家庭厨房灯光偏暖色而客厅偏冷色。

这涉及到的是不规则光照变化、无规律的人类运动轨迹、各式各样的动线和操作物体，在这种高度不可控的环境中训练、学习，是模型必须学会应对的真实条件。毕竟，实验室中无法模拟无规律的变量，但这就是我们家庭环境中的日常，因此牛奶数据对于训练模型而言，是真正训练出具备零样本泛化能力的具身智能基础模型必然要走的路径。

但这还不足以还原WALL-B的完整图景，其数据策略为“实验室数据打底、真实环境数据提质”。其中，实验室数据用于建立基本能力，类似于人类的「通识教育」识别常见物体、执行基础动作。真实家庭数据则让模型学会在不确定环境中生存，在高动态环境中一次又一次完成没有剧本的任务。

更为重要的是，自变量 CTO 王昊在群访中进一步提到，WALL-B在做推理或者是执行任务的同时一直在做数据的回流，所以并不会有所谓迭代周期的概念，它是实现在线式的学习。

当机器人在真实家庭中完成每一次任务、应对每一个突发状况时，都会产生新的高质量数据反哺模型，形成一个由真实随机、不可预测的现实数据所驱动的正向飞轮。这个飞轮一旦转动起来，就会成为难以复制的核心壁垒，随着时间的推移复制窗口期也会逐步扩大。

这种迭代方式也正是具身企业长久竞争力的关键。

一个家庭成员的诞生，这是自变量机器人这场发布会的主题，也是一个极易被行业忽略的本质定义，机器人在家庭场景中首先是「成员」，而非「保姆」。

我们当然有理由期待，未来的家庭机器人能媲美甚至超越一个优秀的保姆。

但回归客观现实，当下所有走进家庭的机器人，本质上都只是一个 “新来的成员”。

它会像每一个初入陌生家庭的人一样，需要一点点摸清家里的动线，记住每个人的作息习惯，慢慢读懂你的情绪与偏好。它会犯错，会手忙脚乱，会做出让人哭笑不得的举动，但也会在一次次与家人的磨合中持续进化，越来越懂这个家。

这正是自变量科技坚持的进家庭初心。王潜在发布会上直言，自变量从创立之初就没想过要打造一个 “无所不能的完美保姆”，而是要做一个能真正扎根家庭、与家人共同成长的 “新成员”。

5 月 25 日，自变量机器人将开启进入家庭的脚步，从摆鞋子、叠衣服到覆盖家庭里那些零散却耗时的长尾需求。但自变量机器人也在现场坦诚表示，这并不意味着机器人能实现百分之百的全自主运行，会有人工为安全和体验兜底。

很多人会问，既然还不完美，为什么要急着走进家庭？答案藏在具身智能的迭代逻辑里。不应该为机器人预设 “要做多少次才能学会某件事” 的条条框框，最好的方式就是让它直接去做、去尝试，在真实的人机交互中收集数据、修正不足。

如果因为恐惧 “不行” 就按下前进的暂停键，机器人永远只能停留在实验室的预设场景里，永远无法真正理解复杂多变的真实家庭生活。

从产业演进的视角看，这一步的意义远不止于一款产品的落地。它标志着通用机器人终于走出了实验室的 “温室”，开始直面最开放、最复杂的家庭场景。这是具身智能发展史上的一个巨大转折，当机器人开始在千万个真实家庭中边做边学、持续迭代，那个属于物理世界的 “Aha moment”，或许真的比我们想象中来得更快。

从 “工具” 到 “成员”，这是改写人与机器的关系瞬间，也重新定义了未来家庭的形态。这条路注定漫长，但每一步坚定的迈进，都在为这个时代写下新的注脚。