去年4月,人形机器人第一次和人类站在同一条赛道上跑马拉松;今年4月,机器人已经跑得比人类还快。但跑得快之后呢?企业们给出的答案出奇一致——先去实习。
从春晚舞台到保洁现场
过去两年,登上春晚、参加比赛是机器人展示拳脚的最佳舞台。宇树科技的机器狗翻跟头、人形机器人跳秧歌,流量拉满,但质疑声从没停过:跑那么快有什么用?什么时候能干实事?
今年4月,叙事变了。智元机器人宣布新款A3人形机器人将通过"擎天租"平台批量交付,上岗景区;自变量机器人与58同城合作,推出全球首个机器人保洁员,进入真实家庭与保洁阿姨协同作业。
社交媒体上已有用户"尝鲜"。有用户反馈,机器人能做晾衣服、收纳等复杂家务,但叠一件衣服要接近10分钟;活动范围有限,有台阶、门槛都进不去。整体评价依然是"机器人不如人"。
这种"不足"不是某家企业的难题,是整个行业的共同瓶颈。自变量CEO王潜直言:「今天在全世界范围内,没有任何一台机器人可以在没有遥控操作的情况下,独立完成大部分的日常家务。」
宇树科技创始人王兴兴也提过类似判断:机器人在预设场景任务中成功率趋近100%,一旦场景变化或出现从未见过的事件,成功率会断崖式下跌。他给出的时间表是:机器人做家务还要3-5年。
"小脑"发达,"大脑"缺钙
业内有个形象的比喻:机器人虽然"小脑"发达,但"大脑"还在发育。
"小脑"指运动控制能力——武术、舞蹈、后空翻,这些复杂动作机器人已经玩得转。"大脑"则是认知、决策能力,是"能干事"的基础。当下最大的瓶颈就在这里:机器人无法理解真实世界的物理逻辑。
让"大脑"真正长好,行业目前分三条技术路线:
VLA端到端是当下主流,也最成熟。它融合视觉等多模态感知信号与语言指令,直接生成机器人动作。简单说就是"听命令,直接干"——用户说"我饿了",机器人找到食物递过来。只要见过类似物体,它就能执行。
但弊端明显:任务越复杂、场景越陌生,越容易"逻辑死机"。而且常用架构把视觉、语言、动作三个模块独立运行,数据每过一次边界就有信息损耗和延迟。涉及精细动作时,"大脑"容易跟不上"小脑"。
世界模型路线被认为最接近人类思考模式。核心能力是理解物理世界运转规律,预测下一刻发生什么。比如杯子从桌上掉落,模型能基于对运动、重力的认知估算方向,机器人据此扶稳或避开。
但成本挑战巨大。英伟达的Cosmos世界基础模型,经过了9000万亿个Token的训练。数据需求、训练成本都是天文数字。
大小脑分层是更具国内特色的路线。LLM大模型当"大脑"理解任务,VLA/动作模型当"小脑"负责精细控制。但拆分容易导致任务延误,难以高精度操作;模块越多,成本越高。
不过国内大部分企业在"小脑"环节已有积累,先立住长板、再补短板,比从零造"大脑"更务实。
三条路线,开始"混血"
每条路线各有优劣,难说谁是终局。更现实的趋势是:深度融合。
智元Genie业务部生态及解决方案总监沈咏剑曾表示,世界模型与VLA不一定是替代关系,也可能融合或合作。今年以来,智元推出了世界模型迭代版本GE-Sim 2.0、新一代VLA基座大模型Genie Operator-2,以及第二代一体化具身大小脑系统GenieReasoner。
智元在传统世界模型仅建模"状态"的基础上,提出了世界动作模型方向,将"状态-动作-状态演化"作为统一建模对象,并未只围绕单一路线推进。
自变量则推出了世界统一模型架构的具身智能基础模型,把大小脑塞进同一个模型,更有效消除模块间的信息损耗与延迟。其模型WALL-B的特点是"干中学"——在反复失败、尝试中自我迭代。
自变量CTO王昊指出:「世界模型并非一个单独的模块,它本质上是一种能力,但这种能力不能简单地累加,并不是在VLA后面再挂一个世界模型就能理解世界。」
智平方提出快慢双系统融合方案:"快系统"负责全身控制,"慢系统"负责逻辑推理。面对复杂动态环境,既能快速反应,又能保持对长程任务的深度理解。
无论哪条路线,"大脑"要真正长好,绕不开两件事:理解世界,以及让思考跟上身体的反应速度。
泳池里学不会游泳
但这不是练得越多就越强。王昊举了个扎心的例子:「一个人在泳池里学了10年游泳,但把他丢到大海,他还是有可能会淹死。」
实验室数据太干净,机器人待在象牙塔里,很难具备真正的独立思考能力。最好的方法是到复杂的、充满随机性的环境中学习。
复旦大学计算机科学技术学院教授肖仰华曾对外表示:「训练具身智能大模型,保守估计当前已有数据量与所需数据量之间至少还差两个数量级。」
两个数量级,意味着100倍的差距。出于对真实数据的渴求,机器人开始加速涌入真实场景。
优必选的人形机器人已经进入工厂。创始人周剑表示,优必选花了两年时间,从新能源汽车制造场景切入,完成搬运、上下料、物料分拣、质检等任务的POC实训。
银河通用的Galbot机器人开始参与药房运营,自主识别订单、抓取药品、扫码、打包;魔法原子的人形机器人变身"汽车销售",在专卖店招揽顾客、讲解车辆参数。
不同企业、不同场景,目标只有一个:在真实场景获取真实数据,让"大脑"在摸爬滚打中真正发育。
为什么急着当"打工仔"
机器人企业如此急切地把半成品推向市场,背后是一套残酷的商业逻辑。
首先是数据饥渴。仿真数据能解决一部分问题,但真实世界的摩擦力、光照变化、人类行为的不可预测性,很难在虚拟环境中完整复现。每一个在真实场景中犯的错,都是珍贵的训练样本。
其次是成本压力。人形机器人硬件成本虽已大幅下降,但离消费级市场仍有距离。先切入B端场景——工厂、景区、药房——用租赁或服务分成模式回血,是更现实的生存策略。
更重要的是技术验证。实验室里的Demo再惊艳,也证明不了商业价值。只有真正进入生产流程、面对真实用户,才能知道"大脑"到底缺在哪块。
58同城选择合作机器人保洁,而非直接替代保洁阿姨,也是务实考量。现阶段机器人更适合做"协同"而非"替代",在特定环节补充人力,同时积累家庭场景数据。
这种"人机协同"模式,可能是未来几年的常态。机器人干得了的,比如地面清洁、物品递送;干不了的,比如复杂收纳、情感交互,继续交给人类。边界在实战中慢慢清晰。
行业叙事从"炫技"转向"务实",本身是一种成熟。春晚舞台上的后空翻,证明的是可能性;工厂里的搬运、家庭中的保洁,验证的是可行性。前者吸引眼球,后者决定生死。
当然,风险同样明显。过早商业化可能透支用户信任——如果"尝鲜"体验太差,市场教育成本会大幅上升。企业需要在"尽快获取数据"和"避免口碑崩塌"之间找平衡。
另一个隐患是技术路线锁定。一旦某家企业在特定场景投入过重,可能被迫持续优化那条路径,错失更优解。深度融合是大趋势,但融合需要资源和时间。
无论如何,2025年正在成为具身智能的"实习元年"。机器人从舞台中央退下,穿上工装,走进车间和客厅,在真实世界的混沌中学习思考。
这个过程注定笨拙、缓慢、充满挫败。但正如王昊那个泳池的比喻——大海才是目的地,泳池里练再久,也学不会真正的游泳。
热门跟贴