2025 年中旬特斯拉宣布Optimus(擎天柱)产线全面停摆,原计划年产5000台最终仅交付千余台。
这三年被资本和科技圈吹上天的人形机器人,为啥连个能帮着做家务的合格保姆都做不到?今天就抛开滤镜聊聊这个行业真正的处境。
现在的人形机器人看着视频里能跳舞、能搬东西,可一旦脱离实验室连最基础的动作都做不稳。
2024年特斯拉Optimus在公开演示中突然摘掉眼镜仰头倒地,研发人员赶紧远程操控下线,这暴露了机器人脱离预设场景后的脆弱性。
谷歌2023年发布的RT2是行业转折点,靠着VLA模型实现了人类发指令,机器人直接干活,当年点燃了整个行业的热情,可两年过去全球的顶级团队都绕不开同一个死结数据。
采集数据有三种方式,但每一种都有致命缺陷,真人动作捕捉是最精准的,但速度慢到离谱。
行业预测训练合格的机器人模型,需要至少百万小时的物理交互数据,靠真人戴 VR 手套同步动作,猴年马月都完不成。
靠摄像头记录的视频数据也不行,人手的自由度远超机械臂,很多精细动作机械手根本做不到就算有数据也没用。
虚拟仿真看似完美,但再逼真的游戏环境也复刻不了真实世界的摩擦力、关节磨损这些细节,仿真通过了到现实里直接翻车。
行业没有停下脚步,现在有三类团队在尝试突破。
把聊天机器人的训练逻辑搬到机器人身上,英伟达最近发布的DreamZero、WAM 模型,把行业研究推到了新高度。
学者倡导的新范式革命,图灵奖得主杨立坤、李飞飞都认为现在靠刷大数据的路子不对,应该让 AI 主动理解世界,而不是只预测下一个词。
创业者的细分场景攻坚,他们不玩全栈就盯着一个小细节死磕,比如中国团队做的灵巧手,从12个自由度做到22个,光轮智能死磕仿真数据采集。
硅谷的RudeAI 募了4.5亿美元专攻机器人模型,还有公司只做家务机器人的餐具收纳,先把一件事做透。
就算现在造不出合格的人形机器人,这场行业热潮也不是白烧钱。
第一个受益的是游戏和 AI 视频生成,动作捕捉技术因为机器人行业的需求,变得更快更成熟,AI 生成画面的真实度也大幅提升,现在抖音上的 AI 短剧已经随处可见。
第二个受益的是自动驾驶,世界模型的投入让自动驾驶的场景判断更精准,面对水坑、路障时的决策逻辑更贴近人类常识。
第三个受益的是机器人硬件成本下降,资本涌入让核心零部件的价格从几千元降到几百元,减速器、传感器的性能提升,也让工业机械臂、智能仓库的门槛大幅降低,惠及整个制造业。
人形机器人距离真正量产普及还有很远,行业评估的总进度甚至不到0.3%,但和登陆火星一样,这场漫长的攻坚不会白费,每一步探索都会带来技术的全面进步。
我们或许还等不来像科幻电影里那样的机器人保姆,但这场科技战役,已经在悄悄改变我们的生活。
热门跟贴