机器人急着打工，先当实习生

像素与芯片

2026-04-30 13:27 ·北京

去年4月，人形机器人第一次和人类站在同一条赛道上跑马拉松；今年4月，机器人已经跑得比人类还快。但跑得快之后呢？企业们给出的答案出奇一致——先去实习。

从春晚舞台到保洁现场

过去两年，登上春晚、参加比赛是机器人展示拳脚的最佳舞台。宇树科技的机器狗翻跟头、人形机器人跳秧歌，流量拉满，但质疑声从没停过：跑那么快有什么用？什么时候能干实事？

今年4月，叙事变了。智元机器人宣布新款A3人形机器人将通过"擎天租"平台批量交付，上岗景区；自变量机器人与58同城合作，推出全球首个机器人保洁员，进入真实家庭与保洁阿姨协同作业。

社交媒体上已有用户"尝鲜"。有用户反馈，机器人能做晾衣服、收纳等复杂家务，但叠一件衣服要接近10分钟；活动范围有限，有台阶、门槛都进不去。整体评价依然是"机器人不如人"。

这种"不足"不是某家企业的难题，是整个行业的共同瓶颈。自变量CEO王潜直言：「今天在全世界范围内，没有任何一台机器人可以在没有遥控操作的情况下，独立完成大部分的日常家务。」

宇树科技创始人王兴兴也提过类似判断：机器人在预设场景任务中成功率趋近100%，一旦场景变化或出现从未见过的事件，成功率会断崖式下跌。他给出的时间表是：机器人做家务还要3-5年。

"小脑"发达，"大脑"缺钙

业内有个形象的比喻：机器人虽然"小脑"发达，但"大脑"还在发育。

"小脑"指运动控制能力——武术、舞蹈、后空翻，这些复杂动作机器人已经玩得转。"大脑"则是认知、决策能力，是"能干事"的基础。当下最大的瓶颈就在这里：机器人无法理解真实世界的物理逻辑。

让"大脑"真正长好，行业目前分三条技术路线：

VLA端到端是当下主流，也最成熟。它融合视觉等多模态感知信号与语言指令，直接生成机器人动作。简单说就是"听命令，直接干"——用户说"我饿了"，机器人找到食物递过来。只要见过类似物体，它就能执行。

但弊端明显：任务越复杂、场景越陌生，越容易"逻辑死机"。而且常用架构把视觉、语言、动作三个模块独立运行，数据每过一次边界就有信息损耗和延迟。涉及精细动作时，"大脑"容易跟不上"小脑"。

世界模型路线被认为最接近人类思考模式。核心能力是理解物理世界运转规律，预测下一刻发生什么。比如杯子从桌上掉落，模型能基于对运动、重力的认知估算方向，机器人据此扶稳或避开。

但成本挑战巨大。英伟达的Cosmos世界基础模型，经过了9000万亿个Token的训练。数据需求、训练成本都是天文数字。

大小脑分层是更具国内特色的路线。LLM大模型当"大脑"理解任务，VLA/动作模型当"小脑"负责精细控制。但拆分容易导致任务延误，难以高精度操作；模块越多，成本越高。

不过国内大部分企业在"小脑"环节已有积累，先立住长板、再补短板，比从零造"大脑"更务实。

三条路线，开始"混血"

每条路线各有优劣，难说谁是终局。更现实的趋势是：深度融合。

智元Genie业务部生态及解决方案总监沈咏剑曾表示，世界模型与VLA不一定是替代关系，也可能融合或合作。今年以来，智元推出了世界模型迭代版本GE-Sim 2.0、新一代VLA基座大模型Genie Operator-2，以及第二代一体化具身大小脑系统GenieReasoner。

智元在传统世界模型仅建模"状态"的基础上，提出了世界动作模型方向，将"状态-动作-状态演化"作为统一建模对象，并未只围绕单一路线推进。

自变量则推出了世界统一模型架构的具身智能基础模型，把大小脑塞进同一个模型，更有效消除模块间的信息损耗与延迟。其模型WALL-B的特点是"干中学"——在反复失败、尝试中自我迭代。

自变量CTO王昊指出：「世界模型并非一个单独的模块，它本质上是一种能力，但这种能力不能简单地累加，并不是在VLA后面再挂一个世界模型就能理解世界。」

智平方提出快慢双系统融合方案："快系统"负责全身控制，"慢系统"负责逻辑推理。面对复杂动态环境，既能快速反应，又能保持对长程任务的深度理解。

无论哪条路线，"大脑"要真正长好，绕不开两件事：理解世界，以及让思考跟上身体的反应速度。

泳池里学不会游泳

但这不是练得越多就越强。王昊举了个扎心的例子：「一个人在泳池里学了10年游泳，但把他丢到大海，他还是有可能会淹死。」

实验室数据太干净，机器人待在象牙塔里，很难具备真正的独立思考能力。最好的方法是到复杂的、充满随机性的环境中学习。

复旦大学计算机科学技术学院教授肖仰华曾对外表示：「训练具身智能大模型，保守估计当前已有数据量与所需数据量之间至少还差两个数量级。」

两个数量级，意味着100倍的差距。出于对真实数据的渴求，机器人开始加速涌入真实场景。

优必选的人形机器人已经进入工厂。创始人周剑表示，优必选花了两年时间，从新能源汽车制造场景切入，完成搬运、上下料、物料分拣、质检等任务的POC实训。

银河通用的Galbot机器人开始参与药房运营，自主识别订单、抓取药品、扫码、打包；魔法原子的人形机器人变身"汽车销售"，在专卖店招揽顾客、讲解车辆参数。

不同企业、不同场景，目标只有一个：在真实场景获取真实数据，让"大脑"在摸爬滚打中真正发育。

为什么急着当"打工仔"

机器人企业如此急切地把半成品推向市场，背后是一套残酷的商业逻辑。

首先是数据饥渴。仿真数据能解决一部分问题，但真实世界的摩擦力、光照变化、人类行为的不可预测性，很难在虚拟环境中完整复现。每一个在真实场景中犯的错，都是珍贵的训练样本。

其次是成本压力。人形机器人硬件成本虽已大幅下降，但离消费级市场仍有距离。先切入B端场景——工厂、景区、药房——用租赁或服务分成模式回血，是更现实的生存策略。

更重要的是技术验证。实验室里的Demo再惊艳，也证明不了商业价值。只有真正进入生产流程、面对真实用户，才能知道"大脑"到底缺在哪块。

58同城选择合作机器人保洁，而非直接替代保洁阿姨，也是务实考量。现阶段机器人更适合做"协同"而非"替代"，在特定环节补充人力，同时积累家庭场景数据。

这种"人机协同"模式，可能是未来几年的常态。机器人干得了的，比如地面清洁、物品递送；干不了的，比如复杂收纳、情感交互，继续交给人类。边界在实战中慢慢清晰。

行业叙事从"炫技"转向"务实"，本身是一种成熟。春晚舞台上的后空翻，证明的是可能性；工厂里的搬运、家庭中的保洁，验证的是可行性。前者吸引眼球，后者决定生死。

当然，风险同样明显。过早商业化可能透支用户信任——如果"尝鲜"体验太差，市场教育成本会大幅上升。企业需要在"尽快获取数据"和"避免口碑崩塌"之间找平衡。

另一个隐患是技术路线锁定。一旦某家企业在特定场景投入过重，可能被迫持续优化那条路径，错失更优解。深度融合是大趋势，但融合需要资源和时间。

无论如何，2025年正在成为具身智能的"实习元年"。机器人从舞台中央退下，穿上工装，走进车间和客厅，在真实世界的混沌中学习思考。

这个过程注定笨拙、缓慢、充满挫败。但正如王昊那个泳池的比喻——大海才是目的地，泳池里练再久，也学不会真正的游泳。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴