独家对话灵御智能：百万小时真机数据，喂出具身智能的“云端大脑”|云端|机器人|灵御智能|算法|高吞吐量内核

戴上VR眼镜，伸出手就操控1000公里外的机器人，让它在七鲜超市的货架前理货、仓库内搬运杂物，延迟水平基本达到肉眼无感。

肉眼无感意味着什么？“让机器人真正成为人身体延伸的前提，没有这个前提，遥操作只能做演示；有了这个前提，才能谈规模化商用和全球化人力调度。”灵御智能联合创始人兼首席科学家莫一林告诉智客ZhiKer。

为了“抢”时间，他带领团队把具身智能操作的端到端链路拆成20个环节，用示波器精确测量每个环节的耗时。最终把端到端延迟控制90毫秒以内，城内公网传输延迟约4毫秒，1000公里跨城传输延迟增加约10毫秒。

但比"快"更底层的命题是，具身智能的“大脑”放哪儿？

当行业主流把高功率的端侧芯片塞进本体、追求端侧自主时，灵御做了一个反直觉的选择，端侧只保留"小脑"负责实时控制，"大脑"放在云端负责认知、推理、学习、进化。当机器人置信度下降，云端操作员无缝接管，每一次接管都生成高质量训练数据，然后反哺模型持续进化。

"这不是工程妥协，是对终局的判断。"灵御智能创始人兼CEO金戈表示。

这个判断来自莫一林的学术路径。他是清华大学自动化系长聘副教授，师从美国工程院院士、机器人操作领域先驱Richard M. Murray，谷歌学术引用超1万次，2021-2025连续五年入选Elsevier中国高被引学者。

回国后他跟滴滴、美团、华为合作自动驾驶；2022年团队在宇树机器狗上做强化学习，他隐约感觉，算法不能脱离硬件而存在，就像大脑不能脱离身体。2024年与一家灵巧手公司合作Demo，进一步坚定只有把硬件、软件、算法深度耦合，才能实现真正的系统级优化。于是在2025年2月，创立了灵御智能。

因为围绕"云端大脑"设计架构而非本体，灵御的商业模式也随之重塑。"我们卖的不是机器人，是机器人即服务（RaaS）+ 操作即服务（MaaS）。"客户不需要一次性投入十几万买设备，可以按任务付费，云端智能是订阅服务，远程操作员是弹性人力。这意味着一家北京商超的理货需求，可以由成都的操作员在云端完成，人力成本重构的空间巨大。

更底层的成本优势来自硬件设计的重构。灵御用行星减速器替代谐波减速器，用电流估算替代六维力传感器，配合500Hz控制频率实现同等精度。这让自研的TeleAvatar本体定价10-20万元，仅为行业同类产品的1/3到1/2。

灵御智能的定位是做具身智能的基础设施提供商，为行业提供高质量的本体和数据服务。今年3月，已完成天使轮融资，华映资本、国海创新资本、天鹰资本、思明科创基金、英诺天使基金、远镜创投、银河创新资本等多家知名投资机构联合投资。

据悉，下一轮融资也已接近到位，预计于近日宣布。

以下为与莫一林、金戈的对话全文，略有删减：

智客ZhiKer：莫老师从教授到创业者，金总从投资人到联合创始人，是什么让你们决定一起创办灵御智能？

莫一林：我回国后在清华大学任教期间，曾与滴滴、美团、华为合作过自动驾驶相关项目。2022年，带领学生在宇树机器狗上做强化学习，深刻感受到算法不能脱离硬件独立存在，就像大脑不能脱离身体运行。但高校缺乏足够资源开展硬件、软件、算法的全链条研发。

于是在2024年，我开始与上海一家做灵巧手的公司合作，基于节卡六轴机械臂开发抓取Demo，这个过程中，进一步坚定了软硬件深度耦合的判断，必须自研硬件才能实现系统级优化。2025年2月，成立了灵御智能。

金戈：我和莫老师相识20多年，也是清华大学自动化系学士、清华大学经济管理学院MBA，曾任远镜创投管理合伙人、奥量光子副总裁，在高科技领域有着多年的创业投资和企业管理经验。

2023年下半年他和我聊到具身智能的创业想法，最初我只是帮他物色合适的CEO人选，面试了几个人都没有找到合适的。

这个过程中我对这个方向有了更深入的理解：第一，这不是一个单纯的机器人概念，而是大模型范式在物理世界的延伸，有清晰的技术演进逻辑和商业闭环可能；第二，我和莫老师的能力也恰好互补，他负责本体、算法、控制、数据平台的技术架构，我负责商业化、生产、融资、人力财务。

最终我把另一家公司的股份全部转让给合伙人，Allin 灵御智能。

智客ZhiKer：既做机器人本体（TeleAvatar），又做数据平台（TeleDroid），你们在具身智能生态中的定位是什么？

金戈：我们的定位是做具身智能的基础设施提供商，为行业提供高质量的本体和数据服务，成为连接硬件与上层应用的中间层。

具身智能生态可以大致分为几个层级，最底层是机器人本体，中间层是云边协同架构和数据层，再往上是模型算法层，最上层是应用层。

目前大量公司从模型算法层切入，但我们认为本体、数据、通讯这些基础层才是行业发展的根基，把这些基础设施做好，才能更好地服务上层生态伙伴。

莫一林：很多模型公司擅长做算法研发，不擅长做数据，也不擅长做本体。就像OpenAI不会自己养一堆人做数据标注，才催生了Scale AI这样的专业数据服务公司。

智客ZhiKer：您提到"懂数据"是核心能力之一，怎么理解具身智能领域的“懂数据”？

莫一林：懂数据不是简单的会采集数据，而是理解数据的全生命周期管理。

举个例子，真机遥操作数据采集时，如果没有做好时间同步和空间标定，采集到的数据质量和普通第一视角视频没有本质差异。

我们目前能够实现电机和摄像头数据的亚微秒级时间同步，机械臂绝对定位精度达到1毫米，这个精度下采集的数据信息密度会更高。

现在行业内很多数据集的场景非常单一，95%的机器人叠衣服视频都是叠短袖T恤，只是颜色不同。这类数据在模型发展初期是必要的，长期来看，对于提升模型的泛化能力是有限的，甚至是“有毒的”。

AlphaGo学习人类棋谱达到一定水平后，继续学习人类棋谱反而会限制棋力提升，AlphaZero通过自我对弈才能实现能力突破。我们判断模型发展到一定阶段后，低质数据会成为负向资产。

此外，很多公司的数据采集、上传、清洗、标注、索引、模型训练等环节是脱节的。我们已经跑通了从数据产生到模型训练的全流程，目前已有北京理工大学、Intel等科研机构和企业使用我们的数据开展研究并发表相关成果。

智客ZhiKer：你们提出把具身的高智能算力应该放在云端而非端侧，背后的核心判断是什么？

金戈：端侧只保留"小脑"负责基础控制，"大脑"应该放在云端，是基于三个现实方面的约束：

第一，功耗硬约束。汽车通常搭载十几度甚至上百度电的电池，而机器人的电池容量普遍只有半度电左右。这是物理极限，不是短期工程优化能解决的。

第二，算力硬约束。端侧芯片的算力天花板明显。当前大语言模型的智能涌现主要发生在云端，不是因为云端部署更方便，而是只有云端才能提供足够的算力密度。机器人要实现接近人类级别的通用智能，端侧算力难以满足需求。

第三，安全与网络环境的差异。汽车行驶中网络环境不可控，必须具备本地快速决策能力以规避碰撞风险；而机器人的工作场景相对固定，网络环境基本可控。我们可以在端侧部署一个低功耗芯片，只负责解决断网时的本地安全控制，比如急停、避碰，将复杂推理、任务规划、多模态理解等功能全部放在云端实现。

我们判断未来数年甚至十年内，高智能算力部署在云端会是更优的技术路线。

当然这并不否定端侧的价值，端侧和云端有明确的分工：端侧负责实时性要求极高的闭环控制，云端负责认知、推理、学习、进化。

智客ZhiKer：这个技术判断对你们的产品设计有哪些具体影响？

莫一林：我们的整个技术栈都是围绕"云端大脑"的架构设计和优化的，和先做端侧自主机器人再对接云端的思路有本质差异。

通讯层，做了大量低延迟优化。目前端到端延迟在90毫秒以内，城内公网传输延迟约4毫秒，1000公里跨城传输延迟增加约10毫秒，这个延迟水平基本打达到肉眼无感。

数据层，机器人采集的数据实时上云，云端模型持续训练迭代，新版本模型再下发到端侧。为了保证闭环顺畅，我们对数据格式、传输协议、模型接口都做了标准化设计。

本体设计层面，我们专门做了适合云端控制的架构，包括视觉回传、力控反馈、运动指令下发的全链路，都是围绕"远程大脑"的需求设计的。

智客ZhiKer：如果云端是终局，你们的商业模式是否也围绕云服务设计？

金戈：长期看，机器人即服务（RaaS）+ 操作即服务（MaaS）是更健康的模式。客户不需要买机器人，按需调用机器人的作业能力，按任务付费。

但现阶段行业还在早期，客户需要测试、验证、建立信任，所以我们也卖本体。本体是业务入口，数据平台和远程操作服务是持续收入。

我们设想的最终形态是，客户现场部署我们的机器人，云端运行智能调度系统，操作员可以在人力成本较低的地区提供远程支持，模型在云端持续进化，形成三层飞轮。

莫一林：机器人部署不是服务的终点，而是模型持续进化的起点。

机器人自主运行时，当置信度低于阈值就触发人工接管，操作员介入完成任务的过程数据会自动回流，下次遇到类似场景时模型的自主能力就会提升。这就是操作即服务的核心，每一次人工接管都是对模型的优化。

智客ZhiKer：你们的数据平台未来会向开发者开放吗？目前的进展和规划是怎样的？

金戈：我们希望做成存训推一体的开发者平台，让机器人开发者专注于算法，数据清洗、标注、训练流程、部署推理、测试验证等基础设施层的工作我们都做好，降低开发者的准入门槛。

目前平台MVP核心能力已经完成，支持多源数据采集、ROS2兼容、一键训练部署。按照规划，2026年Q3将推出开发者公测版，开放数据要素市场，支持多机器人协同仿真。

2027年计划推出商业化正式版，提供私有化部署、企业级集群调度、全场景解决方案模板库等功能。

智客ZhiKer：数据平台具体能做什么？

金戈：具体功能上分为三层：数据层提供多源异构数据统一管理，AI辅助清洗标注，可以把传统需要2周的人工标注流程压缩到2小时，大幅降低数据处理成本；训练层支持3行代码启动分布式训练，内置DiffusionPolicy、ACT、π0等主流具身智能算法架构，也支持自研模型注册；部署层支持一键云端推理或本地下载离线运行，原生兼容ROS2生态。

莫一林：我们还内置了Weights& Biases和HuggingFace Hub对接能力，开发者不需要额外搭建工具链环境。

智客ZhiKer：把端到端延迟压到90毫秒以内，你们在工程上做了哪些优化？

莫一林：延迟是看短板的系统问题，不是某一个单点突破。我们把端到端拆了20个环节，每一个环节消耗多少时间在示波器上精确测量，找到每个环节的优化空间和现有技术的极限。

我举几个关键优化点。比如相机曝光，很多公司使用通用USB摄像头，里面有一堆预处理芯片，延时根本说不清楚。我们从CMOS选型阶段就和供应商联合开发，根据需求定制曝光时间等参数。

编码解码方面，我们有专门的团队优化H.265编解码算法，在极低延迟下保证画面不卡顿、不撕裂。硬件方面，5月份我们要换一块新电路板，能再抢回7毫秒，每前进一点都是细节堆出来的。

智客ZhiKer：你们强调"人臂同构"设计，这一设计主要解决什么问题？具体体现在哪些方面？

莫一林：同构是开箱即用的必要条件，但不是充分条件。它的核心逻辑是利用人对自己身体的先天控制能力，降低遥操作的学习成本。

人伸手拿杯子不需要刻意计算关节角度和轨迹，大脑直接映射到动作。如果机器人结构和人体差异很大，遥操作时就需要大量的刻意练习，还容易出错。

我们的同构设计主要体现在四个维度：

第一是臂展比例。参照一米八标准人体的上臂、前臂长度比例设计机械臂。工业协作臂为了追求伸展距离，往往把手臂做得很长，操作员操作时就像拿着一双长筷子夹东西，精准度和操控感都会下降。我们测试发现臂长增加两三厘米，操作员的疲劳感就会明显上升。

第二是手腕结构。人类手腕的三个旋转轴需要交于一点，否则转动手腕时末端位置会漂移，操作员需要适应一套非自然的运动逻辑。

第三是手长。人手从掌根到指尖大约10-15厘米，我们的夹爪尽量向这个长度靠拢，避免远端操控的剥离感。

第四是活动空间。机械臂安装方式类似人类结构，活动范围和人类手臂接近。很多工业臂的正装或倒装方案限制了活动方向，导致想够某个位置的时候够不到，操作过程中会产生频繁的挫败感。

金戈：我们的设计理念不是追求机器人长得像人，而是运动逻辑尽可能接近人。

目前已经有六七百名普通用户体验过我们的机器人的遥操了，戴上VR眼镜后，在1分钟内就能掌握基本操作。

智客ZhiKer：市面上很多轮式机器人采用传统底盘方案，你们为什么选择三全向轮设计？

金戈：主要是为了提升操作的机动性。传统差速底盘只能前进和转弯，比如扫地机器人要先转向、再移动、再转回朝向；舵轮底盘从直走切换到平移需要先旋转轮子，响应速度较慢。

我们的三轮全向轮设计可以实现直走、平移、旋转的瞬时响应，更符合人类干活时的移动习惯，操作更流畅自然。

智客ZhiKer：TeleAvatar本体定价在10万到20万元之间，据你们介绍仅为行业同类产品平均水平的三分之一到一半，你们是怎么实现成本控制的？

金戈：算法替代昂贵硬件，产品定义剔除冗余设计。

算法替代硬件方面。业内通常给每个关节配谐波减速器和六维力传感器，我们采用低减速比的行星减速器，通过监测电机电流变化估算受力。虽然电流反馈的物理精度确实不如专属传感器，但配合500赫兹控制频率，系统每两毫秒获取一次受力数据，实时调整刚度。加上高精度标定和全局逆解算法，用成本更低的硬件实现了全柔性力控下的毫米级绝对定位精度。

齿轮背隙优化也是同样的思路，做到极小背隙的机械方案成本很高，且受热变形影响容易出现故障，我们用廉价传感器监测齿轮相对位置，通过算法实时补偿背隙，等效精度反而更高。这类似SpaceX用不锈钢替代钛合金的思路，从产品定义层面重构成本结构，而不是在原有方案上挤成本。

莫一林：设计方面，我们砍掉了传统机器人的脖子关节，用广角摄像头提供接近人眼的大视野，操作员想看侧边内容不需要控制机器人扭头，视野本身就能覆盖。

我们还采用了模块化设计，最容易磕碰损坏的小臂和手腕部分可以快速拆卸更换，几个螺丝就能完成替换，不需要整机返厂大修，大幅降低了客户的维护成本和停机时间。这对商业客户来说，不能因为一个小零件坏了，就让整台机器停摆三天。