数据荒漠中的“婴儿”具身智能，距离GPT时刻还有多远？|人工智能|具身|婴儿期|数据荒漠|机器人|神经网络|算法

4月17日，上海张江科学会堂。2500多名来自34个国家和地区的合作伙伴汇聚一堂，智元合作伙伴大会（APC2026）座无虚席。智元创始人、董事长兼CEO邓泰华发布了四大本体新品、六大AI模型、七大生产力解决方案，首次提出具身智能产业XYZ曲线。更是直言：“具身智能这个产业也是我工作二十多年来多个产业里面最让人兴奋和激动的产业。”

台下，投资人、供应商目不转睛地盯着大屏幕。成立三年，年营收突破10亿元、行业首个万台机器人下线、“358”宏图计划（用三年实现生产力的入门，用五年实现生产力的落地，用八年实现生产力的推广）剑指千亿目标。

台上，智元联合创始人、总裁兼CTO彭志辉正与灵犀X2机器人互动。他示意机器人走到舞台中央，或许是紧张，或许是真的“步履蹒跚”，那个价值不菲的机器人走得有些慢。彭志辉半开玩笑地催促：“走太慢了，跑两步。”

这一幕，像极了当下具身智能产业的绝妙隐喻。我们都在催促这个行业“跑两步”，甚至期待它能立刻“飞起来”，去工厂打工，进家庭服务，撑起下一个万亿级市场。 然而，现实是，这个被寄予厚望的行业，甚至连“走路”都还在蹒跚学步。

具身智能这个“继PC、手机之后下一代交互终端”，究竟走到了哪一步？

答案比多数人想象的更朴素：它目前可能还只是个婴儿。

具身智能，这个被视为AI终局的赛道，正处在最微妙也最关键的“婴儿期”。它有了“大脑”，有了四肢，但它距离真正站起来、走起来、跑起来，去创造生产力，还有漫长的路要走。

这个“婴儿”时期的具身智能，到底面临哪些成长的烦恼？

婴儿期的具身智能

APC2026大会间隙，一位产业观察者向小编打了个比方：训练机器人像训练孩子，孩子告诉他千百次才能记住吗？不可能。但机器人每个动作都要训练千万次。这个比喻精准戳中行业痛点：婴儿会哭会笑会挥手会走路，但离自己吃饭穿衣还有漫长距离。今天的具身智能机器人正是如此：能跑能跳能翻跟头，能在春晚舞台大放异彩，但进入工厂车间、家庭厨房就往往原形毕露。

1.表演态与部署态的鸿沟

在邓泰华看来，2026年是部署态元年，具身智能正式从“开发态”迈入“部署态”，从“能动”走向“会干”。

彭志辉在演讲中让灵犀X2走到舞台中央，与它流畅对话。机器人识别现场人数、跟随指令做动作、与人握手并全身柔性控制。台下掌声雷动。但他随后强调，为什么在强调部署态而不是表演态，表演态是单向对外输出，部署态是真正能够做到亲和的灵动交互。

“表演态”，展会上那些炫酷Demo，已相当成熟。机器人能跳舞打拳空翻格斗，甚至完成川剧变脸。但“部署态”，在真实工作环境中持续稳定完成任务，仍处于起步阶段。

数据是最佳证明。觅蜂科技董事长兼CEO姚卯青披露：全球领先大语言模型使用约100万亿tokens训练语料，相当于人连续说话100亿小时。而具身智能领域，全世界高质量真机数据凑凑可能只有50万小时。两者数据鸿沟高达数万倍。

万亿市场风口就在眼前，但数据荒漠让无数算法原型只能停留在实验室。

2.为什么数据如此稀缺

答案藏在具身与“离身”智能的本质差异中。

大语言模型训练数据，文本、图片、视频是互联网数十年积累的数字沉淀，获取成本极低。具身智能需要的数据，是机器人与物理世界交互的真实记录：每次抓取、每次移动、每次力觉反馈。这些数据无法从互联网爬取，需要真机等在真实场景中一点一点采集。

更关键的是数据需求维度。大语言模型处理文本序列这样的一维空间；自动驾驶处理以视觉为主的二维平面移动；具身智能面对真正的三维空间：需要视觉识别物体，还需感知关节运动、力觉反馈、触觉质感，以及多模态信息在时空上的精准同步。

姚卯青比喻更形象：大模型像人一样读书就行，具身智能要去真实世界摸爬滚打，从一维文本变成三维开放世界，数量级、复杂度、获取成本不可同日而语。

3. “GPT时刻”还很遥远

以大语言模型为参照，具身智能处于什么阶段？

姚卯青判断还在Bert时代，也就是 2018年的Transformer阶段，还没到GPT级。Bert证明了Transformer架构有效性，让机器开始理解语言结构，但距智能涌现尚有距离。2020年ChatGPT-3才展现泛化能力，2022年ChatGPT才让智能涌现成为公众可感的现实。

按此时间线，具身智能从Bert时刻到ChatGPT时刻可能还需5年甚至更长。

邓泰华提出的XYZ曲线印证：X曲线（具身突破）2022-2025年，让机器人动起来；Y曲线（智能突破）2026-2030年，让机器人干起来；Z曲线（智能涌现）2030年后，才迎来部署普及期。

也就是说，距机器人像人一样干活至少还需五年以上。具身智能将长期处于婴儿期，会走会跳会表演，但离真正的生产力还很遥远。

破解婴儿期困局

如果说数据匮乏是婴儿期的营养不足，数据生态混乱则是消化系统紊乱。 当前问题不仅是数据量的不足，更是质的参差、标准的缺失、供需的错配。

1. 数据荒漠：标准缺失与质量参差

姚卯青在发布会上表示，各家生产数据格式、标注自成体系，都是孤岛很难互通复用，企业间、上下游协作成本非常高，产业很难形成合力。智源研究院具身Infra&数据负责人姚国才在圆桌论坛上也表示：“我们在训模型过程中用了很多开源数据，发现我们有大量时间都在做数据格式转化。”

标准缺失导致数据质量参差。具身智能需要视觉、力觉、触觉、关节角度等多模态数据精确同步，但当前传感器标定误差、时间同步偏差、标注质量粗糙普遍存在。他警告说，垃圾数据进就垃圾模型出，更严重的是好算法训练没出好结果。“垃圾数据有可能把好的算法和模型给否定了了。”姚国才说。

姚卯青更是直言不讳：“算法再强，无数据则无源。愿景再美，无基建则空悬。”

圆桌讨论中，极佳联合创始人朱政补充：目前数据多在实验室或人工设置场景采集，不够真实，希望数据能泛化到泛服务、工业甚至家庭场景。原力灵机联合创始人范浩强则直指价值衡量难题：市面上数据让人挑花了眼，啥样都有，但我需要什么、缺什么，很难回答。

数据，就是具身智能婴儿的“母乳”，而现在，这个婴儿正面临着严重的“营养不良”。

2.供需错配：一边数据荒，一边产能空转

吊诡的是，行业一边喊数据荒，一边大量数据采集产能空转。

近年来全国涌现大量政府或企业投资的数采中心，购置大量机器人设备，但运营效率堪忧。姚卯青观察，很多数采中心没有以市场或用户为中心采集数据，更像为运营而运营，存在重复劳动、重复场景问题。

这种为采集而采集造成巨大浪费。真正需要数据的企业找不到高质量供给，数采中心产出的数据却无人问津。 核心原因是采集与需求脱节： 采集方不知什么是好数据，需求方缺乏定制化获取渠道。

3. 模型路线的“百家争鸣”

模型架构是具身智能的消化系统，但当前技术路线远未收敛。

彭志辉发布智元六大AI模型规划，涵盖运动、交互、作业三大智能 。运动智能有感控一体运控基座模型和生成式运控基座模型；交互智能有WITA大模型和即将发布的端到端WITA Omni 1.0；作业智能有GO-2模型和动作世界模型GE-2。

即便智元内部，路线也非铁板一块。WITA采用三段式架构,语音转文本、大模型推理、文本转语音,过程中损失语气、情绪等模态信息。而WITA Omni 1.0转向端到端，试图保留完整多模态信息，把动作、表情、情感、语境融合起来。

放眼行业，分歧更加明显。在觅蜂科技的圆桌上，光轮智能CEO谢晨认为，“仿真最后提供的是一个足够广泛的、开放的，足够落地到真实场景的且足够规模化的评价。”而自变量创始人王潜则坚持“以物理世界真实数据为主”。范浩强则打了个圆场：“天下真机采的数据也全是模拟和仿真出来的……用物理手段生成还是用计算手段生成，哪个成本更便宜那就用哪个。”

有团队押注VLA架构，有团队认为VLA毫无价值坚持世界模型，还有人主张强化学习才是正途。绿洲资本张津剑曾形容，即便在北坡赛道，科学家观点也截然不同，堪称百家争鸣。

技术路线不确定性是行业初期必然特征，但也意味着大量资源可能投入最终被证伪的路径。

4. 工业应用的“虚假繁荣”

一个常见反驳：如果具身智能还是婴儿，为何工业场景已有大量机器人部署？

答案在于，工业应用成功很大程度上依赖过去二三十年传统工业机器人积累的基础，而非具身智能自身突破。机械臂、AGV、AMR已在工厂运行多年，积累大量场景数据和工程经验。 大模型加入更多是加速深度学习，而非从零创造能力。

智元发布的七大部署态方案也能印证。工业制造类三个场景中，传统工业机器人早已深耕多年。具身智能更多是提升柔性和泛化能力。 即便最成熟的工商业清洁场景，产品基于早期孵化的智鼎公司，清洁机器人本身是相对成熟品类，与通用具身智能尚有距离。

不做孤勇者，要做摆渡人

婴儿期混沌中，总有一些企业选择更冷静、更长期的打法。智元在APC2026展示的战略布局，提供值得审视的样本。

1. 从“卖机器人”到“交付结果”

彭志辉一句话点出行业转型关键： “ 具身智能真正分水岭，不是AI模型进入物理世界，而是产品开始进入真实工作流，逻辑从卖机器人变成交付结果。”

从 卖产品到交付结果，是商业模式转变更是思维根本转折。 卖产品只需交付硬件；交付结果意味着确保机器人在客户场景真正创造价值——更低人工依赖、更高稳定性、更强泛化性、更可量化收益。

龙旗南昌产线案例是最佳注脚。 3C电子上下料场景中，智元机器人实现8小时连续作业，完成2283项任务，零失误、100%成功率。 这不仅证明技术验证，更证明具身智能可在真实产线交付结果。

龙旗方面分享，从有项目到最后POC花了四个月，双方团队驻扎产线解决了很多问题。 即便头部企业，从实验室到产线部署也需数月,这恰印证婴儿期判断。

正如彭志辉所言：“一台机器人进入具体场景，往往意味着要拆解、解决数十甚至上百个细碎问题。” 即便对于头部企业，从实验室到产线的部署也需数月 。这恰恰印证了婴儿期的判断。

2.不做“独行侠”，要做“组局者”

智元另一值得关注的动作是生态建设。邓泰华宣布“元苼生态”计划，未来五年投入不低于20亿元，用于科研学术、人才培养、生态伙伴与开发者社区。他直言生态需要投入，不是索取，是要投入要让利的。

行业发展初期，很多企业闭门造车，视数据模型为核心机密不愿共享。但具身智能复杂度决定，没有企业能独力解决所有问题。

智元策略是全方位开放：开源操作系统灵渠OS、开源数据集AGIBOT WORLD、开放开发平台AIMA、不要求生态伙伴排他独占。邓泰华表示，如果在智元体系基础上别家跑出来推动产业发展也欢迎，产业成功生产力进步每个人都是受益者。

这种开放心态在竞争激烈的科技行业不多见。 长远看，谁能率先构建繁荣生态，谁更可能在技术路线收敛时占据有利位置。通过成立“擎天租”租赁平台等方式，智元正试图降低机器人使用门槛，加速“数据飞轮”的旋转。

3. “两条腿走路”的务实策略

面对技术路线不确定性，智元采取两条腿走路：一方面继续投入主流真机数据采集和模型训练，确保不掉队；另一方面布局世界模型等前沿方向，为范式转移做准备。

数据层面，智元孵化独立觅蜂科技，定位全球领先一站式物理AI数据服务平台， 试图通过平台化解决数据采集标准化和规模化问题。 觅蜂发布MEgo系列无本体采集设备， 正是为降低门槛、提升效率。

觅蜂计划2026年实现千万小时级数据产能，2030年达百亿小时级，若实现将极大缓解行业数据饥渴。

但数据平台商业模式仍在验证。姚卯青坦言，当前数据交易以B端定制为主，数据商城更多是橱窗展示，真正交易需商务对接。定价、质量评估、隐私保护等问题尚无成熟方案。

谁闭环，谁拥有未来？

彭志辉抛出一个观点：“所以具身智能现在也不只是一个概念，我觉得是一种新的生产力的基础设施，未来的机器人既会是一个执行器，也会是一个流量的入口，机器劳动者也是连接AI的模型与物理世界的接口，谁能率先把这个闭环跑通，谁就有机会定义下一代的生产力的平台。”

这句话可看作整场总结，也可看作行业预言。具身智能竞争不是单一技术点竞争，而是从数据采集、模型训练、本体制造、场景部署到生态构建的全链条竞争。谁能率先打通闭环，让数据飞轮真正转起来，谁就可能占据未来主导。

1. 中国的独特优势

这场全球竞赛中，中国有不可复制的优势：完整制造业产业链。

邓泰华说，具身智能有个具身，这是中国无以比拟的优势。具身智能必须有物理实体，必须与制造业深度耦合。中国拥有全球最完整机器人供应链 :从电机、减速器、传感器到芯片、电池、结构件，几乎每环节都有成熟供应商。这种供应链优势使中国在硬件成本控制和量产速度上拥有天然优势。

彭志辉曾调侃，特斯拉相比我们量产进度有点落后，这半年我们可以享受领跑快乐。 虽有营销成分，但中国在具身智能硬件量产上的领先是事实。

更重要的是场景优势。中国有全球最大制造业基地和最丰富应用场景。从3C电子到汽车零部件，从物流仓储到餐饮服务，每个场景都是具身智能训练场。这种场景丰富度，任何其他国家难以比拟。

2. 冷静比狂热更重要

产业链优势不等于成功保障。资本狂热当下，保持冷静比追逐风口更重要。

邓泰华发出罕见警示： “现在二级市场起来了，但不该简单把二级市场情绪传导到一级市场，现在看到机会所有人闭眼投，往往不是机会而是另一个东西。”

这种逆向降温在创始人中不多见。但它揭示残酷真相：当所有人都觉得是机会，泡沫往往已形成。2025年下半年，数家具身智能明星企业传出裁员、融资困难消息，行业洗牌已开始。

张津剑将具身智能比作 攀登者们的“北坡”（大语言模型为“南坡”），通往AGI的两条路之一，但更难。他认为离登顶还远，甚至没遇到真正冰冻地带，刚走过GPT2阶段，顺利的话还需1000万到2000万小时数据，最快明年中才可能进入GPT3阶段。

婴儿期的正确姿态

回到文章开头那个场景。彭志辉催促机器人“跑两步”，或许是对技术迭代速度的自信，或许只是活跃气氛的调侃。

但冷静下来看，我们必须承认，具身智能的“牛顿”还没有诞生。我们还在黑暗中摸索，寻找那个能够统一物理世界智能的“万有引力定律”。

回到开篇比喻：具身智能正处于婴儿期。婴儿特征是什么？成长快但不稳定；潜力大但需悉心照料；会惊喜也会抓狂。对行业参与者，认识婴儿期基本判断比追逐短期估值融资更重要。婴儿期正确姿态不是急着让孩子打工赚钱，而是耐心喂好每口饭、做好每次训练、纠正每个错误。

海底捞信息科技部副部长杨旋之在大会上分享的合作经验颇具启发：前期更多聚焦情绪价值，后期战略合作不仅情绪价值提供，要真实帮门店提效。这是务实进化路径,先做能做的，积累数据和经验，再向更难目标迈进。

不要因舞台炫酷表演盲目乐观，也不要因商业化步履蹒跚妄自菲薄。 具身智能需要十年甚至更长时间兑现，不可能像移动互联网爆发增长，但可能带来的变革远超移动互联网。

大会最后，邓泰华说，智元成不成没关系，产业成就好。只要产业成功生产力进步，每个人都是受益者。这既是漂亮话也是朴素真理： 婴儿期重要的不是谁家孩子先会走路，而是整个育儿体系——数据、模型、硬件、生态、标准——是否朝正确方向进化。

婴儿期的行业，需要的是耐心和定力。资本应该更理性，不再追捧那些只会做“表演”的炫技公司，而是支持那些愿意在数据、基模、标准这些“基础设施”上深耕的“老实人”。 企业应该更务实，放下“人形崇拜”，先找到能让自己活下来的垂直场景，哪怕只是拧好一颗螺丝、叠好一件衣服。

婴儿终将长大。关键是长大的过程中，有没有给它足够营养、正确引导和安全边界。

这条路，注定漫长且充满荆棘。 但当我们不再为机器人跳一支舞而欢呼，而是为它默默在工厂里拧好第10000颗螺丝而鼓掌时，具身智能的“婴儿”，才算真正迈出了长大的第一步。

随着人工智能技术的快速迭代，大模型的能力边界不断拓展，智能体作为大模型的重要应用模式，正凭借其在规划决策、记忆、工具使用等方面独特的创新性和实用性，引领着一场产业变革。

为贯彻实施《国家人工智能产业综合标准化体系建设指南（2024版）》，中国移动通信联合会正式启动三项团体标准研制工作：

●《人工智能智能体能力要求》 (计划号:T/ZGCMCA 011-2025)

●《人工智能智能体内生安全技术要求》 (计划号:T/ZGCMCA 023-2025)

●《人工智能智能体互操作性接口规范》 (计划号: T/ZGCMCA 024-2025)

现诚邀数据服务企业、医疗机构、科研院所、高校、检测认证机构等全产业链行业机构及研发工程师、项目经理、应用专家等专业人士共同参与标准编制。

期待您的积极参与，让我们携手共进，共同引领人工智能产业的发展方向！

联系人：李贞琦

联系方式：18519753675（同微信）

数据荒漠中的“婴儿”具身智能，距离GPT时刻还有多远？

热搜

热门跟贴

热搜

热门跟贴

相关推荐

用AI十分钟，大脑就"废"了？

AI预言正在成为现实：99%人将被淘汰，仅三类人能成功突围

138个模块堆出的AI系统，华尔街分析师要失业了？

三种AI看世界的方式：token之外还有路吗？

环保App的悖论：用户要的是数据还是陪伴？

俄亥俄程序员自曝"我亲手喂大了吃掉我工作的AI"，如今用1段话逼停5亿数据中心

数智新工具｜引爆A股的光模块，为AI筑起"数据高速公路"

ChatGPT最新语言怪癖：无处不在又令人抓狂

宝宝人还没出门，脚脚已经跑了几里地，路程和脚对了一晚上账！

在人工智能面前人类就像玩具

6岁儿子问我：AI会取代人类吗？

软件开发最后的一块儿阵地，被AI攻克了

你的智能体第3轮就崩了，第7轮才发现

人类幼崽，该上街溜达了，网友宝宝真努力啊！

索尼研发乒乓球机器人打败日本顶尖选手

宇树科技王兴兴：给机器人行业多一点耐心

机器人马拉松超越人类之后：本体走到尽头，智能成为下半场

新颖鳍足机器人，水陆两栖行动自如，适应各种地形

亦庄机器人马拉松现场名场面合集

LLM数据量大管饱，机器人数据却连1%的起跑线都没够到？