过去三年,科技巨头在通用人工智能模型上投入了上千亿美元,但纯软件和网页端的变现空间正在迅速收窄。资本迫切需要看到AI技术在真实的物理世界中产生效益。

打开网易新闻 查看精彩图片

中国的制造业供应链把人形机器人的物料成本从几十万美元硬生生压缩到了两三万美元。

当硬件变得足够便宜,且软件端急需寻找新的落地出口时,把机器人送进工厂替代一部分重复性劳动力,就成了一门终于可以在财务报表上算出投资回报周期的生意。

在学术界,一直存在一个被称为莫拉维克悖论的现象:让计算机在虚拟世界里下国际象棋、做微积分,或者在庞大的数据库里检索信息,其实非常容易;但是,要让一台机器像一岁小孩那样,平稳地走路、看懂桌子上的水杯并伸手把它拿起来,却难如登天。

打开网易新闻 查看精彩图片

在过去,工程师解决这个问题的办法是堆代码。为了让机器人完成一个后空翻或者在碎石路上行走,工程师需要建立极其复杂的数学模型,计算重力、摩擦力、机械关节的扭矩,并写下无数行代码来应对可能的偏差。

这种基于经典控制理论的方法,造就了运动能力极强的机器人,但它们也是极度脆弱的只要环境发生一点预料之外的变化,比如地面的坡度改变了哪怕一两度,或者水杯的形状稍微有些不规则,原本写死的代码就会失效,机器人就会摔倒或宕机。

打开网易新闻 查看精彩图片

这种靠程序员一行行写规则来穷举现实世界所有可能性的做法,注定无法走向通用

改变发生在2023年前后。随着大语言模型的成熟,AI展现出了惊人的常识理解能力。行业开始意识到,与其教机器人如何计算每一个关节的角度,不如直接让它自己看和学。

打开网易新闻 查看精彩图片

这就催生了目前具身智能领域最核心的技术流派:端到端的视觉-语言-动作模型。

所谓的端到端,就是直接把摄像头拍到的画面和人类的一句语音指令(比如给我拿个杯子)输入进大模型,模型经过庞大的内部神经网络计算,直接输出一组微弱的电流信号,控制机器人的每一个电机转动。

中间没有任何程序员人为设定的规则和代码。

这种技术路径的巨大优势在于,机器人第一次拥有了泛化能力。因为它是在海量的人类视频和图像数据中训练出来的,哪怕它从来没见过你桌子上的那个特定款式的杯子,它也能凭常识认出它并尝试抓取。

打开网易新闻 查看精彩图片

但代价同样沉重。端到端模型是一个难以解释的黑盒。当机器人在演示中顺利抓起杯子时,所有人都在欢呼;但当它在工厂里突然发疯一样把零件砸碎时,工程师根本无法像过去那样通过查阅代码库来找出到底是哪一行出了错。

这种不可解释性,直接决定了机器人目前能去哪里,以及不能去哪里。

家庭环境被称为非结构化环境。这是一个充满了混乱、随机和极端不确定性的空间。地面的材质可能从硬木地板突然变成软地毯,沙发上可能随意扔着衣服,角落里可能会突然窜出一只猫,光线也会随着早晚发生剧烈变化。

打开网易新闻 查看精彩图片

在这种环境下,机器人哪怕只有1%的识别错误率,都可能导致它踩坏贵重物品,甚至在端着热水时滑倒烫伤人类。这种潜在的诉讼风险和公关灾难,是任何一家科技公司在现阶段都绝对不敢承担的。

工厂则完全相反。现代化的工厂是典型的结构化环境。厂房里的光照是恒定的,过道是平整且没有障碍物的,零件永远只会出现在传送带的特定位置。这里的环境变数被降到了最低。

打开网易新闻 查看精彩图片

更重要的是,在流水线上,机器人的任务是高度单一且重复的,比如每天重复一万次把螺丝从A点放到B点。

在工厂老板的眼里,机器人是不是具备人类的意识根本不重要,他们只算一笔极度冷酷的财务账。

假设一个人类产业工人的年综合成本是10万元人民币。如果一台机器人的售价能控制在20万元以内,且能7乘24小时连续工作,不需要休息、不会要求涨薪、也不会有情绪波动,那么这台机器人的投资回报周期就能控制在一到两年之内。

在制造业微薄的利润率面前,只要账能算平,替换人工就是必然的选择。

这就是为什么马斯克坚持要利用特斯拉现有的汽车工厂作为其Optimus机器人的首发测试场。他试图复刻当年Model 3规模化量产时的逻辑:先在自家工厂里大量使用,通过规模效应把单台硬件成本极速摊薄。

打开网易新闻 查看精彩图片

在这里,中国制造业供应链发挥了决定性的作用。人形机器人的三大核心硬件是减速器、伺服电机和力矩传感器。在过去,这些精密部件长期被日本和欧洲的企业垄断,价格极其高昂。

但随着国内智能汽车产业链的溢出效应,大批中国企业开始把造汽车零部件的产线改造用来造机器人部件。短短两年内,原本数万元一个的谐波减速器,硬生生被中国供应链把均价打到了千元级别。

打开网易新闻 查看精彩图片

硬件成本快速压缩,才是支撑人形机器人今天能够走出实验室、变成一张真实商品的基础。

这就引出了目前具身智能在工程落地时面临的最大痛点:从仿真到现实的鸿沟(Sim-to-Real Gap)。

打开网易新闻 查看精彩图片

为了节省成本,工程师通常会在电脑的虚拟引擎里构建一个虚拟环境,让机器人的虚拟替身在里面日夜不停地练习抓取零件。在虚拟世界里,算法很快就能达到99.9%的成功率。

但是,一旦把这套训练好的算法直接拷贝到现实世界的物理机器人脑子里,它往往立刻就会崩溃。

因为现实世界充满了虚拟引擎无法完美模拟的微小扰动可能是车间里的气流影响了机械臂的微小轨迹,可能是齿轮使用三个月后产生的0.1毫米的磨损误差,也可能是一束逆光导致摄像头的画面曝光过度。

打开网易新闻 查看精彩图片

要填平这道鸿沟,唯一的笨办法就是让机器人在真实的物理世界里去犯错、去收集数据。

但这太贵了,也太慢了。目前的通用做法叫遥操作。也就是雇佣大量的人类工人,让他们戴上VR头显,穿上带有传感器的机械外骨骼,像玩体感游戏一样远程控制机器人去干活。

工人控制机器人成功抓起一个零件,系统就记录下这一次成功的动作轨迹和受力数据。

要想训练出一个能熟练掌握某项技能的机器人,可能需要几十万次甚至上百万次这样的真人示范数据。

打开网易新闻 查看精彩图片

这就导致了一个极具讽刺意味的商业图景:为了造出能替代人类干苦力的自动化机器人,科技公司目前不得不雇佣大量的人力,在数据采集中心里日复一日地干着枯燥的操作员工作。数据采集本身,变成了一项庞大的劳动密集型产业。

在这个阶段,各家公司的战略分歧开始显现。谷歌选择联合全球几十家顶尖的高校实验室,把大家零散的机器人实验数据拼凑起来,做成开源数据集,试图建立行业的基础设施。

打开网易新闻 查看精彩图片

特斯拉依靠自己庞大的汽车工厂,直接在产线上进行数据闭环每摔坏一个零件,就算作一次错误数据的积累。而在中国,地方政府和头部企业正在联合牵头,建立专门的多场景数据采集基地,试图用系统化、组织化的力量来暴力破解数据稀缺的难题。

可以说,2026年之后的机器人战争,已经完全退化成了一场数据消耗战。

所以,当我们在今天讨论具身智能的发展时,必须收起那些对于硅基生命觉醒的宏大想象。机器人进厂打工,不是科幻小说的开端,这个行业的重心,已经从聚光灯下那些令人惊叹的后空翻演示,转移到了流水线旁毫不起眼的角落。

打开网易新闻 查看精彩图片

工程师们不再为了让机器人展现出多高的智商而彻夜不眠,他们现在焦虑的是如何把机械臂的抓取成功率从98%提高到99.9%,如何让电机的寿命再延长半年,如何把单台的制造成本再抠掉五千块钱。

这门生意正在褪去光环,变得越来越繁琐、细碎和乏味。但回顾科技史,往往只有当一项技术变得乏味且锱铢必较时,它才算真正拿到了进入商业社会的入场券。