戴上VR眼镜,伸出手就操控1000公里外的机器人,让它在七鲜超市的货架前理货、仓库内搬运杂物,延迟水平基本达到肉眼无感。
肉眼无感意味着什么?“让机器人真正成为人身体延伸的前提,没有这个前提,遥操作只能做演示;有了这个前提,才能谈规模化商用和全球化人力调度。”灵御智能联合创始人兼首席科学家莫一林告诉智客ZhiKer。
为了“抢”时间,他带领团队把具身智能操作的端到端链路拆成20个环节,用示波器精确测量每个环节的耗时。最终把端到端延迟控制90毫秒以内,城内公网传输延迟约4毫秒,1000公里跨城传输延迟增加约10毫秒。
但比"快"更底层的命题是,具身智能的“大脑”放哪儿?
当行业主流把高功率的端侧芯片塞进本体、追求端侧自主时,灵御做了一个反直觉的选择,端侧只保留"小脑"负责实时控制,"大脑"放在云端负责认知、推理、学习、进化。当机器人置信度下降,云端操作员无缝接管,每一次接管都生成高质量训练数据,然后反哺模型持续进化。
"这不是工程妥协,是对终局的判断。"灵御智能创始人兼CEO金戈表示。
这个判断来自莫一林的学术路径。他是清华大学自动化系长聘副教授,师从美国工程院院士、机器人操作领域先驱Richard M. Murray,谷歌学术引用超1万次,2021-2025连续五年入选Elsevier中国高被引学者。
回国后他跟滴滴、美团、华为合作自动驾驶;2022年团队在宇树机器狗上做强化学习,他隐约感觉,算法不能脱离硬件而存在,就像大脑不能脱离身体。2024年与一家灵巧手公司合作Demo,进一步坚定只有把硬件、软件、算法深度耦合,才能实现真正的系统级优化。于是在2025年2月,创立了灵御智能。
因为围绕"云端大脑"设计架构而非本体,灵御的商业模式也随之重塑。"我们卖的不是机器人,是机器人即服务(RaaS)+ 操作即服务(MaaS)。"客户不需要一次性投入十几万买设备,可以按任务付费,云端智能是订阅服务,远程操作员是弹性人力。这意味着一家北京商超的理货需求,可以由成都的操作员在云端完成,人力成本重构的空间巨大。
更底层的成本优势来自硬件设计的重构。灵御用行星减速器替代谐波减速器,用电流估算替代六维力传感器,配合500Hz控制频率实现同等精度。这让自研的TeleAvatar本体定价10-20万元,仅为行业同类产品的1/3到1/2。
灵御智能的定位是做具身智能的基础设施提供商,为行业提供高质量的本体和数据服务。今年3月,已完成天使轮融资,华映资本、国海创新资本、天鹰资本、思明科创基金、英诺天使基金、远镜创投、银河创新资本等多家知名投资机构联合投资。
据悉,下一轮融资也已接近到位,预计于近日宣布。
以下为与莫一林、金戈的对话全文,略有删减:
智客ZhiKer:莫老师从教授到创业者,金总从投资人到联合创始人,是什么让你们决定一起创办灵御智能?
莫一林:我回国后在清华大学任教期间,曾与滴滴、美团、华为合作过自动驾驶相关项目。2022年,带领学生在宇树机器狗上做强化学习,深刻感受到算法不能脱离硬件独立存在,就像大脑不能脱离身体运行。但高校缺乏足够资源开展硬件、软件、算法的全链条研发。
于是在2024年,我开始与上海一家做灵巧手的公司合作,基于节卡六轴机械臂开发抓取Demo,这个过程中,进一步坚定了软硬件深度耦合的判断,必须自研硬件才能实现系统级优化。2025年2月,成立了灵御智能。
金戈:我和莫老师相识20多年,也是清华大学自动化系学士、清华大学经济管理学院MBA,曾任远镜创投管理合伙人、奥量光子副总裁,在高科技领域有着多年的创业投资和企业管理经验。
2023年下半年他和我聊到具身智能的创业想法,最初我只是帮他物色合适的CEO人选,面试了几个人都没有找到合适的。
这个过程中我对这个方向有了更深入的理解:第一,这不是一个单纯的机器人概念,而是大模型范式在物理世界的延伸,有清晰的技术演进逻辑和商业闭环可能;第二,我和莫老师的能力也恰好互补,他负责本体、算法、控制、数据平台的技术架构,我负责商业化、生产、融资、人力财务。
最终我把另一家公司的股份全部转让给合伙人,Allin 灵御智能。
智客ZhiKer:既做机器人本体(TeleAvatar),又做数据平台(TeleDroid),你们在具身智能生态中的定位是什么?
金戈:我们的定位是做具身智能的基础设施提供商,为行业提供高质量的本体和数据服务,成为连接硬件与上层应用的中间层。
具身智能生态可以大致分为几个层级,最底层是机器人本体,中间层是云边协同架构和数据层,再往上是模型算法层,最上层是应用层。
目前大量公司从模型算法层切入,但我们认为本体、数据、通讯这些基础层才是行业发展的根基,把这些基础设施做好,才能更好地服务上层生态伙伴。
莫一林:很多模型公司擅长做算法研发,不擅长做数据,也不擅长做本体。就像OpenAI不会自己养一堆人做数据标注,才催生了Scale AI这样的专业数据服务公司。
智客ZhiKer:您提到"懂数据"是核心能力之一,怎么理解具身智能领域的“懂数据”?
莫一林:懂数据不是简单的会采集数据,而是理解数据的全生命周期管理。
举个例子,真机遥操作数据采集时,如果没有做好时间同步和空间标定,采集到的数据质量和普通第一视角视频没有本质差异。
我们目前能够实现电机和摄像头数据的亚微秒级时间同步,机械臂绝对定位精度达到1毫米,这个精度下采集的数据信息密度会更高。
现在行业内很多数据集的场景非常单一,95%的机器人叠衣服视频都是叠短袖T恤,只是颜色不同。这类数据在模型发展初期是必要的,长期来看,对于提升模型的泛化能力是有限的,甚至是“有毒的”。
AlphaGo学习人类棋谱达到一定水平后,继续学习人类棋谱反而会限制棋力提升,AlphaZero通过自我对弈才能实现能力突破。我们判断模型发展到一定阶段后,低质数据会成为负向资产。
此外,很多公司的数据采集、上传、清洗、标注、索引、模型训练等环节是脱节的。我们已经跑通了从数据产生到模型训练的全流程,目前已有北京理工大学、Intel等科研机构和企业使用我们的数据开展研究并发表相关成果。
智客ZhiKer:你们提出把具身的高智能算力应该放在云端而非端侧,背后的核心判断是什么?
金戈:端侧只保留"小脑"负责基础控制,"大脑"应该放在云端,是基于三个现实方面的约束:
第一,功耗硬约束。汽车通常搭载十几度甚至上百度电的电池,而机器人的电池容量普遍只有半度电左右。这是物理极限,不是短期工程优化能解决的。
第二,算力硬约束。端侧芯片的算力天花板明显。当前大语言模型的智能涌现主要发生在云端,不是因为云端部署更方便,而是只有云端才能提供足够的算力密度。机器人要实现接近人类级别的通用智能,端侧算力难以满足需求。
第三,安全与网络环境的差异。汽车行驶中网络环境不可控,必须具备本地快速决策能力以规避碰撞风险;而机器人的工作场景相对固定,网络环境基本可控。我们可以在端侧部署一个低功耗芯片,只负责解决断网时的本地安全控制,比如急停、避碰,将复杂推理、任务规划、多模态理解等功能全部放在云端实现。
我们判断未来数年甚至十年内,高智能算力部署在云端会是更优的技术路线。
当然这并不否定端侧的价值,端侧和云端有明确的分工:端侧负责实时性要求极高的闭环控制,云端负责认知、推理、学习、进化。
智客ZhiKer:这个技术判断对你们的产品设计有哪些具体影响?
莫一林:我们的整个技术栈都是围绕"云端大脑"的架构设计和优化的,和先做端侧自主机器人再对接云端的思路有本质差异。
通讯层,做了大量低延迟优化。目前端到端延迟在90毫秒以内,城内公网传输延迟约4毫秒,1000公里跨城传输延迟增加约10毫秒,这个延迟水平基本打达到肉眼无感。
数据层,机器人采集的数据实时上云,云端模型持续训练迭代,新版本模型再下发到端侧。为了保证闭环顺畅,我们对数据格式、传输协议、模型接口都做了标准化设计。
本体设计层面,我们专门做了适合云端控制的架构,包括视觉回传、力控反馈、运动指令下发的全链路,都是围绕"远程大脑"的需求设计的。
智客ZhiKer:如果云端是终局,你们的商业模式是否也围绕云服务设计?
金戈:长期看,机器人即服务(RaaS)+ 操作即服务(MaaS)是更健康的模式。客户不需要买机器人,按需调用机器人的作业能力,按任务付费。
但现阶段行业还在早期,客户需要测试、验证、建立信任,所以我们也卖本体。本体是业务入口,数据平台和远程操作服务是持续收入。
我们设想的最终形态是,客户现场部署我们的机器人,云端运行智能调度系统,操作员可以在人力成本较低的地区提供远程支持,模型在云端持续进化,形成三层飞轮。
莫一林:机器人部署不是服务的终点,而是模型持续进化的起点。
机器人自主运行时,当置信度低于阈值就触发人工接管,操作员介入完成任务的过程数据会自动回流,下次遇到类似场景时模型的自主能力就会提升。这就是操作即服务的核心,每一次人工接管都是对模型的优化。
智客ZhiKer:你们的数据平台未来会向开发者开放吗?目前的进展和规划是怎样的?
金戈:我们希望做成存训推一体的开发者平台,让机器人开发者专注于算法,数据清洗、标注、训练流程、部署推理、测试验证等基础设施层的工作我们都做好,降低开发者的准入门槛。
目前平台MVP核心能力已经完成,支持多源数据采集、ROS2兼容、一键训练部署。按照规划,2026年Q3将推出开发者公测版,开放数据要素市场,支持多机器人协同仿真。
2027年计划推出商业化正式版,提供私有化部署、企业级集群调度、全场景解决方案模板库等功能。
智客ZhiKer:数据平台具体能做什么?
金戈:具体功能上分为三层:数据层提供多源异构数据统一管理,AI辅助清洗标注,可以把传统需要2周的人工标注流程压缩到2小时,大幅降低数据处理成本;训练层支持3行代码启动分布式训练,内置DiffusionPolicy、ACT、π0等主流具身智能算法架构,也支持自研模型注册;部署层支持一键云端推理或本地下载离线运行,原生兼容ROS2生态。
莫一林:我们还内置了Weights& Biases和HuggingFace Hub对接能力,开发者不需要额外搭建工具链环境。
智客ZhiKer:把端到端延迟压到90毫秒以内,你们在工程上做了哪些优化?
莫一林:延迟是看短板的系统问题,不是某一个单点突破。我们把端到端拆了20个环节,每一个环节消耗多少时间在示波器上精确测量,找到每个环节的优化空间和现有技术的极限。
我举几个关键优化点。比如相机曝光,很多公司使用通用USB摄像头,里面有一堆预处理芯片,延时根本说不清楚。我们从CMOS选型阶段就和供应商联合开发,根据需求定制曝光时间等参数。
编码解码方面,我们有专门的团队优化H.265编解码算法,在极低延迟下保证画面不卡顿、不撕裂。硬件方面,5月份我们要换一块新电路板,能再抢回7毫秒,每前进一点都是细节堆出来的。
智客ZhiKer:你们强调"人臂同构"设计,这一设计主要解决什么问题?具体体现在哪些方面?
莫一林:同构是开箱即用的必要条件,但不是充分条件。 它的核心逻辑是利用人对自己身体的先天控制能力,降低遥操作的学习成本。
人伸手拿杯子不需要刻意计算关节角度和轨迹,大脑直接映射到动作。如果机器人结构和人体差异很大,遥操作时就需要大量的刻意练习,还容易出错。
我们的同构设计主要体现在四个维度:
第一是臂展比例。参照一米八标准人体的上臂、前臂长度比例设计机械臂。工业协作臂为了追求伸展距离,往往把手臂做得很长,操作员操作时就像拿着一双长筷子夹东西,精准度和操控感都会下降。我们测试发现臂长增加两三厘米,操作员的疲劳感就会明显上升。
第二是手腕结构。人类手腕的三个旋转轴需要交于一点,否则转动手腕时末端位置会漂移,操作员需要适应一套非自然的运动逻辑。
第三是手长。人手从掌根到指尖大约10-15厘米,我们的夹爪尽量向这个长度靠拢,避免远端操控的剥离感。
第四是活动空间。机械臂安装方式类似人类结构,活动范围和人类手臂接近。很多工业臂的正装或倒装方案限制了活动方向,导致想够某个位置的时候够不到,操作过程中会产生频繁的挫败感。
金戈:我们的设计理念不是追求机器人长得像人,而是运动逻辑尽可能接近人。
目前已经有六七百名普通用户体验过我们的机器人的遥操了,戴上VR眼镜后,在1分钟内就能掌握基本操作。
智客ZhiKer:市面上很多轮式机器人采用传统底盘方案,你们为什么选择三全向轮设计?
金戈:主要是为了提升操作的机动性。传统差速底盘只能前进和转弯,比如扫地机器人要先转向、再移动、再转回朝向;舵轮底盘从直走切换到平移需要先旋转轮子,响应速度较慢。
我们的三轮全向轮设计可以实现直走、平移、旋转的瞬时响应,更符合人类干活时的移动习惯,操作更流畅自然。
智客ZhiKer:TeleAvatar本体定价在10万到20万元之间,据你们介绍仅为行业同类产品平均水平的三分之一到一半,你们是怎么实现成本控制的?
金戈:算法替代昂贵硬件,产品定义剔除冗余设计。
算法替代硬件方面。业内通常给每个关节配谐波减速器和六维力传感器,我们采用低减速比的行星减速器,通过监测电机电流变化估算受力。虽然电流反馈的物理精度确实不如专属传感器,但配合500赫兹控制频率,系统每两毫秒获取一次受力数据,实时调整刚度。加上高精度标定和全局逆解算法,用成本更低的硬件实现了全柔性力控下的毫米级绝对定位精度。
齿轮背隙优化也是同样的思路,做到极小背隙的机械方案成本很高,且受热变形影响容易出现故障,我们用廉价传感器监测齿轮相对位置,通过算法实时补偿背隙,等效精度反而更高。这类似SpaceX用不锈钢替代钛合金的思路,从产品定义层面重构成本结构,而不是在原有方案上挤成本。
莫一林:设计方面,我们砍掉了传统机器人的脖子关节,用广角摄像头提供接近人眼的大视野,操作员想看侧边内容不需要控制机器人扭头,视野本身就能覆盖。
我们还采用了模块化设计,最容易磕碰损坏的小臂和手腕部分可以快速拆卸更换,几个螺丝就能完成替换,不需要整机返厂大修,大幅降低了客户的维护成本和停机时间。这对商业客户来说,不能因为一个小零件坏了,就让整台机器停摆三天。
智客ZhiKer:单台机器人的续航能力是多久?
金戈:目前主要使用500瓦时的电池,续航时间约为半天。如果选配更大容量的电池,续航时间可以达到一天。
我们也在开发快速换电方案,进一步提升机器人的连续作业能力。
智客ZhiKer:目前商业化进展如何?有哪些类型的客户?
金戈:目前已经获得了几十台订单并交付客户,意向订单超过1000 台。
客户主要包括机器人数据采集中心、模型和大脑研发机构、科研机构、大学以及零售、酒店、物流、工厂等行业用户。
智客ZhiKer:团队目前规模如何?人员结构是怎样的?
金戈:目前团队约80人,其中 70% - 80%为研发人员,硬件研发人员占比20%,其余为软件研发人员。招聘重点偏向底层控制、通讯、硬件工程等方向的人才。
智客ZhiKer:2026年你们的核心目标是什么?
金戈:有三个核心目标。
第一,全年出货量突破800台机器人,不是Demo样机,是稳定可靠、在客户现场干活的机器。
第二,完成商业闭环验证,在1-2个真实的工作场景中证明机器人可以为客户带来正ROI。
第二,构建数据资产。一年内为行业提供至少百万小时的高质量真机数据集。这些数据不是简单的数量堆叠,每条数据都经过标准化处理,可以直接用于模型训练。
这三件事是相互关联的,机器部署规模上去才能产生足够的场景数据,场景验证跑通才能证明商业价值,数据飞轮转起来才能体现基础设施的网络效应。2026年是灵御从"产品公司"变成"基础设施服务商"的关键年。(作者|郭虹妘,编辑|杨林)
热门跟贴