从人形机器人的灵活操控到工业机械臂的精准作业,从服务机器人的场景适配到边缘设备的算力升级,无不预示着“物理AI”时代的加速到来。
2026年开年以来,具身智能领域的市场热度与资本活跃度持续攀升,投融资事件密集落地,同时春晚舞台上多家头部具身智能领域公司的产品集中亮相,更让这一赛道从产业端走向大众视野,直观展现了这一年技术发展的快速发展。
当前,具身智能正从概念热潮向产业攻坚过渡,边端侧计算设备则作为其落地的核心载体,迎来架构迭代与性能突破的关键期。与单纯的虚拟AI不同,具身智能要求实体设备具备“感知-理解-决策-执行-反馈”的完整闭环,能够通过执行器改变物理世界并形成动态调整,这一特性决定了其对算力、实时性、可靠性的多元需求,也推动着边端侧计算从“通用化”向“异构化”“定制化”转型。
从概念到落地,具身智能产业进入新周期
当生成式AI的热度逐渐沉淀,具身智能凭借“连接虚拟与物理世界”的独特价值,成为AI产业下一阶段的核心增长点。据国务院发展研究中心预测,中国具身智能2030年达4000亿元人民币,2035年突破万亿元。与此同时,中国信通院《具身智能发展报告(2025年)》中,首次将具身智能纳入国家未来产业重点,2025年全球市场规模195.25亿元人民币。
但热闹的市场背后,是产业落地的诸多现实瓶颈。英特尔研究院副总裁、英特尔中国研究院院长宋继强明确指出:“当前具身智能的发展,正处于‘提升能力上限’与‘保障能力下限’的双重攻坚期。大家都在展示机器人的智能能力,但很少有人关注它表现不佳时该怎么办——这正是产业化必须跨越的鸿沟”。
当前具身智能的产业现状呈现“热度高、落地难、痛点集中”的特点,而异构计算作为破解痛点的核心思路,逐渐成为行业共识。
具身智能的核心是将智能能力与实体设备结合,让设备能够感知外界、理解环境、做出决策,并通过执行器改变物理世界,最终形成“决策-执行-反馈”的闭环。在宋继强看来,如果只是播放视频、发送语音,这些不算具身智能,“具身智能的核心必须能对物理世界产生实际影响。”宋继强强调。
这一定义清晰划分了具身智能与传统AI的边界:传统AI多局限于虚拟场景的信息处理,而具身智能则强调“物理交互”与“闭环能力”。例如,一辆能将人从A点运到B点的自动驾驶汽车、一台能完成物流分拣的移动机器人、一架能实现物资运送的无人机,都属于具身智能的范畴;而单纯的语音助手、图像识别系统,则不属于这一领域。
近年来,随着多模态大模型、视觉-语言-动作模型(VLA)、世界模型等技术的突破,具身智能的产业热度持续攀升。根据Gartner 2024年发布的《新兴技术成熟度曲线》报告,生成式AI已越过“期望膨胀期”顶峰,而自主AI系统(Autonomous AI)作为其延伸方向,正推动人形机器人、具身智能体等进入该阶段的中后期。
热钱之下
2026年开年以来,具身智能领域的市场热度与资本活跃度持续攀升,投融资事件密集落地,同时今年春晚舞台上宇树科技、松延动力、魔法原子、银河通用等多家头部具身智能领域公司的产品集中亮相,更让这一赛道从产业端走向大众视野,直观展现了技术落地的阶段性成果。
从投融资动态来看,2026年以来具身智能领域融资热度持续升温,资本布局呈现“大额融资集中、头部企业凸显、多资本类型参与”的特点。
2月24日,具身智能头部企业千寻智能宣布连续完成两轮近20亿元融资,创下2026年以来该领域融资新高,投资方涵盖云锋基金、混沌投资等一线机构,TCL创投等产业资本,以及重庆、杭州等地国有资本,老股东也持续加码,本轮融资后其估值突破百亿元,将重点投入具身基础模型与真实数据体系建设。在此之前,月23日,全球机器人基础模型龙头企业智平方完成B轮超10亿元融资,估值超百亿,投资方包括百度、中国中车等多方力量,近一年内该企业已累计完成12轮融资,成为全球融资节奏最快的具身智能企业。
此外,2月11日星海图完成近10亿元B轮融资,2月10日商汤科技旗下大晓机器人完成天使轮融资,据不完全统计,2026年1月份全球具身智能及人形机器人领域融资事件超20起,披露融资总额超160亿元,同时埃斯顿、宇树科技、乐聚机器人等企业正筹备IPO,计划2026年冲刺资本市场,资本的持续注入为产业技术攻坚提供了有力支撑。
尽管产业热度高涨,但当前具身智能的落地仍面临诸多痛点,其中准确性、可靠性、数据孤岛三大问题最为突出,成为制约其从“演示”走向“实用”的关键瓶颈。
首先是准确性不足的问题,这也是当前VLA模型的核心短板。VLA作为具身智能的核心技术之一,能够实现“视觉输入-语言理解-动作输出”的端到端映射,但目前其性能仍有较大提升空间。对此,宋继强表示,当前主流VLA模型的任务准确率仅为60%-70%,离工业级可用的99%以上准确率还差几十个点。而且它的泛化能力很差,视觉场景发生轻微变化——比如物体颜色、形状、相对位置的改变,如果没有在训练数据集中出现过,就很难外推到位。
其次是可靠性与安全性的双重挑战。具身智能设备多在与人、工业环境交互的场景中运行,其可靠性与安全性直接关系到人员安全与生产效率。宋继强告诉笔者,具身智能的可靠性,至少体现在三个层级:第一,规划决策是否可信赖;第二,动作执行是否可信赖;第三,系统出错时整体是否仍可靠,“当前很多具身智能设备,在这三个层级都存在短板。”宋继强指出。
具体来看,在规划决策层,基于神经网络的大模型、VLA模型存在“黑盒问题”与“幻觉问题”,难以保证决策的可解释性与准确性。例如,机器人可能会因为模型幻觉,将“拿起杯子”的指令误解为“打碎杯子”;在动作执行层,当前很多机器人的运动控制精度不足,难以完成高精度作业——比如让机器人往左走15cm,实际可能偏差3-5cm;在系统容错层,大部分具身智能设备缺乏完善的安全机制,一旦出现硬件故障或软件错误,就可能陷入瘫痪,甚至引发安全事故。
此外,具身智能的安全性还面临“传统信息安全+AI安全+物理安全”的三重威胁。宋继强解释道,“以前的智能设备,只需要关注传统的信息安全问题;但具身智能设备引入了AI模型,就需要应对针对AI的攻击——比如模型投毒、对抗样本攻击;同时,它与人、环境交互,还存在物理安全问题,比如机器人操作失误伤人、设备故障导致生产中断等。更关键的是,安全都是额外成本,如何在安全级别与成本之间找到平衡,也是行业需要解决的问题。”
第三是数据孤岛与数据短缺问题。具身智能的发展高度依赖数据——VLA模型、世界模型的训练,都需要大量的场景数据、动作数据、交互数据,但当前行业面临着“数据采集难、数据不标准、数据孤岛严重”的困境。对此,宋继强表示,数据是当前具身智能发展的首要问题,尤其是对VLA+世界模型这条路径而言,“VLA与环境、动作场景、机器人本体都密切相关,需要专门的数据支撑训练,但现在的数据采集面临很多难题。”宋继强补充道。
具体来看,数据采集的难点主要体现在四个方面:
- 一是数据定义不统一,比如VLA训练需要视觉数据、语言数据,有的厂商还会加入触觉数据,但行业内尚未明确“什么样的数据是完整的”;
- 二是精度与频率缺乏标准,不同厂商对动作精度、控制频率的要求不同,导致采集的数据难以复用;
- 三是机器人本体不统一,人形、轮臂式、机器狗等不同形态的机器人,其动作数据差异巨大,难以形成统一的数据集;
- 四是视角差异,VLA模型高度依赖视觉数据,摄像头装在机器人头部、胳膊上,采集到的视角不同,数据的可用性也不同。
面对准确性、可靠性、数据短缺等多重痛点,行业逐渐形成一个核心共识:异构计算是具身智能落地的核心基石。对此,宋继强强调:“具身智能一定落在物理实体之上,这个实体包含感知、理解与决策、推动执行、反馈观察的完整闭环,不同环节对计算能力的要求不同——有的需要高通量算力,有的需要低时延响应,有的需要高精度浮点运算,很难用同一种硬件解决所有问题,底层必然需要异构计算。”
所谓异构计算,就是将不同架构的计算单元(CPU、GPU、NPU、AI ASIC、神经形态加速器等)结合起来,根据不同任务的需求,分配相应的计算资源,实现“算力适配任务”的最优效果。与传统的同构计算相比,异构计算具有能效比高、实时性强、灵活性好等优势,能够完美匹配具身智能多环节、多需求的算力要求。
从具身智能的任务链路来看,不同环节对算力的需求差异显著,这也决定了异构计算的必要性。针对此,宋继强提出了“系统2-系统1-系统0”的三层决策链路,并详细阐述了各层的算力需求:
系统2是“慢系统”,主要负责场景理解与任务规划,与语言逻辑抽象层相关,输出语义层级更高、准确度更高的结果,比如VLM模型(视觉语言模型)就属于这一层。这一层需要处理高通量的视觉输入与语言输入,对算力的吞吐量要求较高,GPU是最适合的计算单元——例如英特尔酷睿Ultra处理器中的GPU,能够高效处理多模态数据,支撑大模型的推理与训练。
系统1是“动作专家”(Action Expert),主要负责将系统2的规划任务,映射到具身设备的执行器(关节电机、轮子等),生成控制指令,输出频率约为200Hz。这一层对实时性、低功耗的要求较高,同时需要支持矩阵向量运算,NPU(神经网络处理单元)是最优选择。宋继强透露:“英特尔酷睿Ultra处理器内置的NPU,能够实现11TOPS@~2W的能效比,在PTL平台上更是能达到50 TOPS,完全能够满足系统1的算力需求。”
系统0是传统的MPC控制器(模型预测控制),主要负责将系统1的控制指令,提升到更高的频率(超过1000Hz),实现动作的平滑、精准执行,解决动作顿挫的问题。这一层对实时性与浮点计算精度的要求极高,CPU是核心计算单元——英特尔酷睿Ultra的CPU,能够实现10us以内的实时响应,满足高精度运动控制的需求。
“在具身智能的任务链路中,CPU、GPU、NPU各司其职、协同工作,才能实现最优的性能与能效比。”宋继强表示,“比如‘拿起笔,把它插进笔帽里’这个简单的任务,系统2的VLM模型理解指令(GPU支撑),系统1的Action Expert生成动作轨迹(NPU支撑),系统0的MPC控制器将动作频率提升到1000Hz(CPU支撑),三者协同,才能完成精准、平滑的操作。”
除了任务链路的适配,异构计算还能解决具身智能的可靠性与可扩展性问题。智能体的构建的是通过编排器自动完成的,而不是预先编程,这就需要编排器能够调用不同的智能体功能,而异构框架能够提供灵活的资源调度能力,支撑多智能体系统的运行。同时,异构计算能够隔离不同的计算任务,比如将实时性要求高的运动控制任务,与实时性要求低的AI推理任务隔离开来,避免相互干扰,提升系统的可靠性。
从概念热潮到产业攻坚,从技术验证到小规模落地,具身智能的发展,正迎来前所未有的机遇与挑战。边端侧计算设备的异构集成、工业级升级与边端云协同,为具身智能的落地提供了坚实的算力支撑;异构计算的普及、AI模型的优化与软件生态的完善,为具身智能的技术突破提供了核心动力;而场景驱动、生态协同、标准统一,则为具身智能的规模普及指明了清晰的路径。(文|Leo张ToB杂谈,作者|张申宇,编辑丨盖虹达)
热门跟贴