最近Figure AI的直播挺热闹的,三台人形机器人连续不间断分拣包裹200个小时,期间还安排了一场人机大战,人类小哥跟机器人对干了10小时,胳臂都要累断了,最终以12,924件对12,732件险胜。换算下来,人类比机器人快0.04秒。
Figure AI的CEO说这是"人类最后的胜利",但我还是觉得,人形机器人商业化进工厂,没那么乐观。
直播是真的,问题也是真的
先说说直播里我注意到的一些东西。
第一个绕不开的问题:这场直播到底是不是真的?
估计是被忽悠次数多了,有网友质疑背后有人远程遥控:你看这机器人不知道为啥时不时就抬手往脑袋上扶一下,像不像戴VR头显的人下意识推眼镜?
Figure坚决否认,说这是全自主的。CEO也上电视辟谣了。
行吧,就算这一切完全是真的,没有任何人类干预,那暴露出来的问题也不少。
准确率上还差点意思。直播里大量包裹夹不稳掉落,更要命的是掉了也不知道捡。物流分拣讲究的是不出错,错一个件意味着投诉、赔付、客户流失。这个错误率放到真正的仓库里,第一天就会被叫停。
遇到困难也完全不会变通。有个包裹够不着拿不起来,它就反复较劲半天,不会换个角度试试、不会用另一只手、不会跳过去先处理下一个。人干活遇到问题会想办法,它没有plan B,面对这种没被预编程过的状况,表现跟傻子没有区别。
还有一类更诡异的:做跟任务完全无关的动作,干着干着活突然开上摩托了,过了好几秒才回过神来。
按理说它应该代表的是相当先进的水平了,毕竟之前从来没有机器人能直播连干200小时,那为什么看起来还是有点笨呢?这得从它的"大脑"说起。
小小的模型装不下太多世界
Figure机器人的模型叫Helix-02。它有一个根本性的约束:模型完全跑在机器人本地芯片上,不上云端大模型。
这其实不只是Figure一家的选择,所有人形机器人都面临同样的物理约束:操控动作需要避免延迟。就拿分拣快递来说,一个包裹滑过来,机器人必须迅速决定怎么抓。你不可能每次都先把摄像头画面传到云端、跑一遍GPT级别的大模型、等一会再把指令传回来。那包裹早堆成山了,更别说机器人的真实工作环境也不一定有稳定的网络。
所以Helix-02采用分层架构:顶层是一个7B参数的视觉语言模型,每秒做7-9次场景理解和任务决策;底层是一个只有千万参数级的全身控制器,以1000Hz频率实时控制关节。全程在机器人本地芯片离线运行,不依赖云端。
代价是脑子小,见过的世面就少。GPT、Claude这种千亿参数的大模型之所以能应对各种奇怪输入,靠的是海量数据把边角case都覆盖了。你把模型压到千万级塞进机器人脑袋里,它就只认识训练时见过的东西。
直播大部分时间看着还行,是因为环境太理想了:光照稳定、没有干扰、传送带匀速。但只要出现一点训练数据没覆盖的变量,它就开始对空气做动作了。
所以俄亥俄州立大学工程学院院长Ayanna Howard看完直播说了句大实话:"这更像一个科学项目,不是商业服务。"
真实环境会把它打回原形
直播是在Figure总部搞的。光照恒定、温度适宜、传送带匀速、包裹规格统一。
真实的快递仓库什么样?我随便列几个变量:
夏天有的分拣站室内温度超过40度。电机在高温下性能衰减、电池续航缩短、传感器读数飘移。冬天低温环境下润滑油变稠,关节响应变慢。
粉尘。物流仓库里纸屑、胶带碎片、填充物到处飘。这些东西进到光学传感器镜头上,进到关节缝隙里,进到散热口里。精密设备最怕的就是粉尘。
异形件。真实的快递包裹有多奇葩?有编织袋、有球拍、有长条卷轴。直播里方方正正的纸箱和塑料袋,在真实场景里绝对不是全部。
突发状况。传送带卡了、前面有个破损包裹漏了液体弄湿了下一件、两个包裹粘在一起过来了。人工分拣员一眼就能判断怎么处理,机器人面对任何一个超出训练数据的意外都会发懵。
直播已经是最理想的环境了。最理想的环境里它还会出问题。真实仓库那就是地狱难度。
商业化遥遥无期
说回到人机大战的数据。人类2.79秒一件,机器人2.83秒。看起来差不多对不对?
醒醒,这是供了一个祖宗。
买来第三个月,第一次预防性维护就该到了。按行业建议,高强度运转的人形机器人每3到6个月就要做一轮全面保养——关节润滑、传感器校准、线缆检查。 你不养它,它就罢工。
工业机器人行业的通用标准是:年维护费用占原设备价格的10%到20%,就算没有任何故障,几年下来光维护费就够再买一台了。
这还不算零件换新的费用。
人形机器人是一台由精密关节驱动的运动机器。Figure 03全身30个自由度,光手部就有20个,撑全身重量、承受分拣动作冲击的大关节——膝关节、髋关节、肩关节、腕关节——有十个左右。
这些关节每一个都在动作中持续承受敲击式负载。关节里最核心的零件叫谐波减速器。按照行业标准,谐波减速器在额定负载下的寿命大约是7,000到10,000小时,6,000小时以上就算合格。
什么概念?一个仓库如果单班运转,一年工作约2,000小时,核心关节撑3.5到5年就得换。如果是三班倒,这个数字直接缩到一年半到两年。
同时要换的还有电池。
Figure 03的电池容量2.3千瓦时,续航5小时。
锂离子电池的循环寿命一般是500到1,000次满充满放。如果每天一充,2到3年电池就得换。换一组电池不便宜,价格在1000到5000美元不等。
这还是在自然磨损没出故障的前提下。某一天,它真坏了怎么办呢。
人形机器不像叉车,车间师傅拧两下就能修。一个腕关节出问题,流程是这样的:联系原厂工程师 → 排期上门 → 拆机 → 诊断 → 确认需要更换减速器 → 订零件 → 供应商备货 → 零件到了 → 更换 → 校准 → 测试 → 恢复运转。
要是零件缺货,可能要等到明年。
而在这么长的时间里,这个工位的产能是零。工业机器人计划外停机的损失,制造业全行业平均每小时26万美元。
汽车制造业的损失更是高达每小时230万美元。换算到分钟,低则一千美元,高则上万美元。
今年Figure宣布了BotQ工厂的建厂计划,目标年产12,000台。问题是:就算你造出来12,000台,谁买?
以目前的性价比,物流公司不会买(算不过来账),制造业不会买(专用机械臂更稳更便宜),消费市场更不会买(十几万美元一台的玩具?)。没有需求端的规模支撑,你的产线开了也是空转。
说回Figure的直播
我不用"给投资人表演""骗融资"这种阴谋论去理解它。200小时直播前所未有,有实质进步。这一点要认。
但这不等于离商业化近。
人形机器人现在的处境就一句话:便宜不过人工,好不过专用机械臂。
5-10年之内,很难在真实运转的快递分拣中心看到它。
顺便说一句,最近我在内部启动了一件事:用AI来评价我们整个组织的AI Native建设程度。核心目的是让公司拥有创业公司级别的聚焦能力和机动性,靠系统、靠数据、靠AI本身的反馈机制。
内部做了这么多,我们也想把我们的经验分享给真正想要转型的企业,实现真正的AI Native组织变革。
热门跟贴