作者 | 涤心
在第九届数字中国建设峰会现场,中国移动展区的移动星厨无人餐厅成了全场人气最高的打卡点之一。在这里,咖啡机器人熟练完成磨豆、萃取、拉花的全流程,跑堂机器人则搭载自研折叠轮臂和灵巧手,稳稳端着餐盘自主避障送餐,多订单并行也井然有序。观众将展台围得里三层外三层,不少人边用手机拍摄边连连惊叹。
不过,热闹背后,这场机器人“协奏曲”离真正的商业落地还有多远?带着这个疑问,网易科技在峰会现场独家对话了中国移动杭州研发中心具身智能产品部具身智能模型团队产品经理郑家慧,围绕商业化障碍、成本构成、技术可靠性、多机协同机制以及竞争壁垒五个维度,展开了深度交流。
从展台到后厨,商业化的三大难题
提问:目前移动星厨在走向更多使用场景的过程中,面临的最大商业化障碍是什么?中国移动如何突破?
郑家慧:目前在整个移动星厨商业化落地进程中,主要有三大难点。
第一是稳定性。当前我们的具身智能模型VLA模型,本质上是一个transformer架构,但它输出的其实是一个概率性问题。在同样的环境和输入下,它都有可能给出不同的动作序列。这带来的好处是它可以更好地适应更多环境,问题在于它带有一定的不确定性,在按钮点击、精密装配等需要高精度重复性作业情况下,会产生一定的负面效果。这是业界和产业界都在攻克的难关。
第二是成本。当前机器人还没进入量产阶段,从硬件整机到上游零部件,整体成本都还在定制化阶段。
第三是安全可靠性。目前针对具身智能相关的安全规范和法律条款还不是特别完备。如果发生机器人伤人等事件,没有相应法律法规去进行管控。
针对以上问题,中国移动首先在自研智能VLA具身架构,希望通过模型架构侧的规范,能够让机器人在固定场景更稳定、更可靠。
针对成本问题,中国移动积极成立上下游产业链,希望拉通所有厂商共同制造,同时,程宝平总也进入了具身智能规范委员会,希望带领大家一起制定具身智能相应的产业规范。
安全领域方面,中国移动也正在推进。首先,我们希望通过人工介入去进行兜底。另外,我们也在积极推动国家进行相应法律法规的制定。相信在未来五年,相应规范能够更加完备,商业化进展也会越来越快。
成本拆解:硬件是大头,30万到80万的价格如何打下来
提问:目前方案的成本构成中,占比最大的是哪一块?未来一到两年内,整套方案的部署成本大概会降到什么区间来吸引更多餐饮品牌?
郑家慧:目前整体方案可以分为三部分:硬件成本、软件开发成本和后续运维成本。其中占比最高的是硬件成本。当前机器人,特别是折叠轮式机器人,整体价格在30万到80万不等,对普通人来说是非常难以接受的。
背后主要还是因为每个机器人厂商制定的硬件从外观到内部电机、传感器型号都各异,通信链路也都不一样,导致各个厂商都在做定制化操作,没有进行统一规范,硬件成本难以下压。
其次是后续运维成本。因为前述硬件不规范,导致一台机器人卖出去可能要付出海量的后续运维、维修以及迭代升级成本,这部分成本也非常高。
最后是模型算法成本。这部分成本不太好量化,因为主要都是专家们、算法工程师们在进行持续攻关,人力成本非常难以量化。
我们希望首先能有一个稳定的硬件,在硬件基础上,大家可以更好地去开发模型,最后打造一个通用机器人,去更好地服务大众。
后厨比展台更复杂,VLA模型如何应对极端情况
提问:真实的后厨环境比展台要复杂得多,当遇到极端情况,比如突然有人员走动,模型怎么处理?当前模型处理任务的成功率大概怎样?
郑家慧:这其实是两个问题。第一个问题是,我们当前模型的能力如何?当前,我们对模型进行过系统测试。在实验室环境以及数字中国峰会现场,针对模型的单个原子技能——抓放、操作、点按——单点成功率能维持在90%以上。
但我们也要承认,在长序列复杂任务中,任务难度会逐渐积累,任务误差也会不断放大。所以,整体长程任务的稳定性会在单次执行稳定性的基础上有一个下降,这也是我们后续需要去攻克的难点。
第二个问题是,机器人遇到故障时如何去介入?首先,机器人硬件上会配置一个急停按钮。在遇到危险事故时,可以通过急停按钮对它进行紧急制动。在此基础上,当前的机器人主要还是依靠视觉去控制动作。那如何让它更好地跟人交互,就需要引入另一个维度——力觉和触觉。我们尝试在机器人的信息中加入力触觉信息。当它对人使力或对物使力达到一个对应阈值时,会触发它的停止,也就是说让它打你的时候不那么疼。
多机协同背后的“调度超脑”:5G专网与云端大脑如何分工
提问:除了单一机器人的协作能力,移动星厨的核心亮点是咖啡机器人和跑堂机器人可以高效协同作业,背后依赖的中央调度系统是如何实现任务动态分配的?
郑家慧:这也可以从两个层面来说。第一个层面是,单台机器人如何高效作业。目前机器人行业遇到的通用难题是,机器人需要同时兼顾实时性和泛化性。实时性指的是它需要实时响应指令。否则像大语言模型,如果发生1到2秒卡顿,它手中握着的一杯热水就可能落在地上,造成的伤害需要考量。泛化性指的是它在处理未见过的场景和目标时,该如何执行?这要求的是模型参数量。
但是针对当前大语言模型,通常有几十B、上百B参数的时候,不管是国际还是国内,具身智能模型典型的参数量通常在2到4B,这主要受限于实时性,要求具身智能模型必须跑在机器人端。机器人端通常配备的Orin系列算力卡只有8G显存,算力大概在200多T。也就是说在性能约束下,我们只能跑2到4B的模型。
针对这个问题,移动走了三步战略:第一步是提出了VLA Real实时异步推理架构。我们将云端大脑和端侧小脑进行了解耦,可以让大脑模型放在更远的地方,但是本地实时控制不受干扰。
第二步,就是将大脑放在哪里才能解决时延问题?移动自研了一个5G现存基站。我们将这个算力模型放在了5G基站上,通过5G信号来跟机器人进行实时通信。这样既解决了时延问题,也能够让模型参数量更进一步提升。
第三步是5G信号带来的另一个好处。在展会现场以及机场等人流量多的时候,Wi-Fi信号的同频干扰是非常严重的。我们可以给5G信号做一个专网,给它一个专属VIP通道,确保机器人能够实时接到对应指令,这是单台机器人作业的逻辑。
关于多台机器人如何调度的问题,首先,我们有一个多机协同的调度超脑。这台超脑会实时接收所有机器人上报的点位信息、作业任务信息,以及前台订单信息,实时调度,分配给对应机器人。
第二,我们做了导航避障。机器人在实时移动过程中,也会实时上报它的点位。如果前面遇到行人,它也会进行避障退让,确保运行高效稳定。
第三,是异常处理方式。当某台机器人遇到故障,我们会让机器人直接上报故障。它对应的任务会直接进入任务池,重新分配给附近空闲的机器人,确保前台订单不丢失,后台任务能够正常进行。
中国移动做机器人,底牌是什么
提问:现在市场上已经有各类送餐机器人或咖啡机器人了,移动星厨核心竞争壁垒是什么?
郑家慧:我觉得是中国移动的模型、算力、网络、一体化的能力。中国移动在做的不是专用机器人,中国移动的目标最终是实现通用家庭服务机器人,希望这个机器人能够真正走入千家万户,去服务到每一个人。
我们希望机器人不仅有专长,还有通才。基于此,我们首先要训练一个通用基座模型。基座模型可以类比九年义务教育,让机器人能够快速去适应各个场景。在这个基础上,我们对它进行后训练的场景验证,让它学会更多专长,不管是咖啡制作、饭团制作,抑或是烤肠等常见任务,都可以让它去执行。
此外,中国移动还有全国最大的网络运维团队,在各地市、县城,都能找到对应的团队成员。您买的不是一台专用机器人,您买的是背后一整个网络保障和一台未来通用人形机器人。
热门跟贴