热钱追逐，具身智能要先过异构计算这一关丨ToB产业观察|tob产业|具身|可靠性|异构计算|新模型|智能体|机器人|神经网络

从人形机器人的灵活操控到工业机械臂的精准作业，从服务机器人的场景适配到边缘设备的算力升级，无不预示着“物理AI”时代的加速到来。

2026年开年以来，具身智能领域的市场热度与资本活跃度持续攀升，投融资事件密集落地，同时春晚舞台上多家头部具身智能领域公司的产品集中亮相，更让这一赛道从产业端走向大众视野，直观展现了这一年技术发展的快速发展。

当前，具身智能正从概念热潮向产业攻坚过渡，边端侧计算设备则作为其落地的核心载体，迎来架构迭代与性能突破的关键期。与单纯的虚拟AI不同，具身智能要求实体设备具备“感知-理解-决策-执行-反馈”的完整闭环，能够通过执行器改变物理世界并形成动态调整，这一特性决定了其对算力、实时性、可靠性的多元需求，也推动着边端侧计算从“通用化”向“异构化”“定制化”转型。

从概念到落地，具身智能产业进入新周期

当生成式AI的热度逐渐沉淀，具身智能凭借“连接虚拟与物理世界”的独特价值，成为AI产业下一阶段的核心增长点。据国务院发展研究中心‌预测，中国具身智能2030年达4000亿元人民币，2035年突破万亿元。与此同时，中国信通院‌《具身智能发展报告（2025年）》中，首次将具身智能纳入国家未来产业重点，2025年全球市场规模195.25亿元人民币。

但热闹的市场背后，是产业落地的诸多现实瓶颈。英特尔研究院副总裁、英特尔中国研究院院长宋继强明确指出：“当前具身智能的发展，正处于‘提升能力上限’与‘保障能力下限’的双重攻坚期。大家都在展示机器人的智能能力，但很少有人关注它表现不佳时该怎么办——这正是产业化必须跨越的鸿沟”。

当前具身智能的产业现状呈现“热度高、落地难、痛点集中”的特点，而异构计算作为破解痛点的核心思路，逐渐成为行业共识。

具身智能的核心是将智能能力与实体设备结合，让设备能够感知外界、理解环境、做出决策，并通过执行器改变物理世界，最终形成“决策-执行-反馈”的闭环。在宋继强看来，如果只是播放视频、发送语音，这些不算具身智能，“具身智能的核心必须能对物理世界产生实际影响。”宋继强强调。

这一定义清晰划分了具身智能与传统AI的边界：传统AI多局限于虚拟场景的信息处理，而具身智能则强调“物理交互”与“闭环能力”。例如，一辆能将人从A点运到B点的自动驾驶汽车、一台能完成物流分拣的移动机器人、一架能实现物资运送的无人机，都属于具身智能的范畴；而单纯的语音助手、图像识别系统，则不属于这一领域。

近年来，随着多模态大模型、视觉-语言-动作模型（VLA）、世界模型等技术的突破，具身智能的产业热度持续攀升。根据Gartner 2024年发布的《新兴技术成熟度曲线》报告，‌生成式AI已越过“期望膨胀期”顶峰‌，而‌自主AI系统‌（Autonomous AI）作为其延伸方向，正推动人形机器人、具身智能体等进入该阶段的中后期。

热钱之下

2026年开年以来，具身智能领域的市场热度与资本活跃度持续攀升，投融资事件密集落地，同时今年春晚舞台上宇树科技、松延动力、魔法原子、银河通用等多家头部具身智能领域公司的产品集中亮相，更让这一赛道从产业端走向大众视野，直观展现了技术落地的阶段性成果。

从投融资动态来看，2026年以来具身智能领域融资热度持续升温，资本布局呈现“大额融资集中、头部企业凸显、多资本类型参与”的特点。

2月24日，具身智能头部企业千寻智能宣布连续完成两轮近20亿元融资，创下2026年以来该领域融资新高，投资方涵盖云锋基金、混沌投资等一线机构，TCL创投等产业资本，以及重庆、杭州等地国有资本，老股东也持续加码，本轮融资后其估值突破百亿元，将重点投入具身基础模型与真实数据体系建设。在此之前，月23日，全球机器人基础模型龙头企业智平方完成B轮超10亿元融资，估值超百亿，投资方包括百度、中国中车等多方力量，近一年内该企业已累计完成12轮融资，成为全球融资节奏最快的具身智能企业。

此外，2月11日星海图完成近10亿元B轮融资，2月10日商汤科技旗下大晓机器人完成天使轮融资，据不完全统计，2026年1月份全球具身智能及人形机器人领域融资事件超20起，披露融资总额超160亿元，同时埃斯顿、宇树科技、乐聚机器人等企业正筹备IPO，计划2026年冲刺资本市场，资本的持续注入为产业技术攻坚提供了有力支撑。

尽管产业热度高涨，但当前具身智能的落地仍面临诸多痛点，其中准确性、可靠性、数据孤岛三大问题最为突出，成为制约其从“演示”走向“实用”的关键瓶颈。

首先是准确性不足的问题，这也是当前VLA模型的核心短板。VLA作为具身智能的核心技术之一，能够实现“视觉输入-语言理解-动作输出”的端到端映射，但目前其性能仍有较大提升空间。对此，宋继强表示，当前主流VLA模型的任务准确率仅为60%-70%，离工业级可用的99%以上准确率还差几十个点。而且它的泛化能力很差，视觉场景发生轻微变化——比如物体颜色、形状、相对位置的改变，如果没有在训练数据集中出现过，就很难外推到位。

其次是可靠性与安全性的双重挑战。具身智能设备多在与人、工业环境交互的场景中运行，其可靠性与安全性直接关系到人员安全与生产效率。宋继强告诉笔者，具身智能的可靠性，至少体现在三个层级：第一，规划决策是否可信赖；第二，动作执行是否可信赖；第三，系统出错时整体是否仍可靠，“当前很多具身智能设备，在这三个层级都存在短板。”宋继强指出。

具体来看，在规划决策层，基于神经网络的大模型、VLA模型存在“黑盒问题”与“幻觉问题”，难以保证决策的可解释性与准确性。例如，机器人可能会因为模型幻觉，将“拿起杯子”的指令误解为“打碎杯子”；在动作执行层，当前很多机器人的运动控制精度不足，难以完成高精度作业——比如让机器人往左走15cm，实际可能偏差3-5cm；在系统容错层，大部分具身智能设备缺乏完善的安全机制，一旦出现硬件故障或软件错误，就可能陷入瘫痪，甚至引发安全事故。

此外，具身智能的安全性还面临“传统信息安全+AI安全+物理安全”的三重威胁。宋继强解释道，“以前的智能设备，只需要关注传统的信息安全问题；但具身智能设备引入了AI模型，就需要应对针对AI的攻击——比如模型投毒、对抗样本攻击；同时，它与人、环境交互，还存在物理安全问题，比如机器人操作失误伤人、设备故障导致生产中断等。更关键的是，安全都是额外成本，如何在安全级别与成本之间找到平衡，也是行业需要解决的问题。”

第三是数据孤岛与数据短缺问题。具身智能的发展高度依赖数据——VLA模型、世界模型的训练，都需要大量的场景数据、动作数据、交互数据，但当前行业面临着“数据采集难、数据不标准、数据孤岛严重”的困境。对此，宋继强表示，数据是当前具身智能发展的首要问题，尤其是对VLA+世界模型这条路径而言，“VLA与环境、动作场景、机器人本体都密切相关，需要专门的数据支撑训练，但现在的数据采集面临很多难题。”宋继强补充道。

具体来看，数据采集的难点主要体现在四个方面：

一是数据定义不统一，比如VLA训练需要视觉数据、语言数据，有的厂商还会加入触觉数据，但行业内尚未明确“什么样的数据是完整的”；
二是精度与频率缺乏标准，不同厂商对动作精度、控制频率的要求不同，导致采集的数据难以复用；
三是机器人本体不统一，人形、轮臂式、机器狗等不同形态的机器人，其动作数据差异巨大，难以形成统一的数据集；
四是视角差异，VLA模型高度依赖视觉数据，摄像头装在机器人头部、胳膊上，采集到的视角不同，数据的可用性也不同。

异构计算如何解题？

面对准确性、可靠性、数据短缺等多重痛点，行业逐渐形成一个核心共识：异构计算是具身智能落地的核心基石。对此，宋继强强调：“具身智能一定落在物理实体之上，这个实体包含感知、理解与决策、推动执行、反馈观察的完整闭环，不同环节对计算能力的要求不同——有的需要高通量算力，有的需要低时延响应，有的需要高精度浮点运算，很难用同一种硬件解决所有问题，底层必然需要异构计算。”

所谓异构计算，就是将不同架构的计算单元（CPU、GPU、NPU、AI ASIC、神经形态加速器等）结合起来，根据不同任务的需求，分配相应的计算资源，实现“算力适配任务”的最优效果。与传统的同构计算相比，异构计算具有能效比高、实时性强、灵活性好等优势，能够完美匹配具身智能多环节、多需求的算力要求。

从具身智能的任务链路来看，不同环节对算力的需求差异显著，这也决定了异构计算的必要性。针对此，宋继强提出了“系统2-系统1-系统0”的三层决策链路，并详细阐述了各层的算力需求：

系统2是“慢系统”，主要负责场景理解与任务规划，与语言逻辑抽象层相关，输出语义层级更高、准确度更高的结果，比如VLM模型（视觉语言模型）就属于这一层。这一层需要处理高通量的视觉输入与语言输入，对算力的吞吐量要求较高，GPU是最适合的计算单元——例如英特尔酷睿Ultra处理器中的GPU，能够高效处理多模态数据，支撑大模型的推理与训练。

系统1是“动作专家”（Action Expert），主要负责将系统2的规划任务，映射到具身设备的执行器（关节电机、轮子等），生成控制指令，输出频率约为200Hz。这一层对实时性、低功耗的要求较高，同时需要支持矩阵向量运算，NPU（神经网络处理单元）是最优选择。宋继强透露：“英特尔酷睿Ultra处理器内置的NPU，能够实现11TOPS@~2W的能效比，在PTL平台上更是能达到50 TOPS，完全能够满足系统1的算力需求。”

系统0是传统的MPC控制器（模型预测控制），主要负责将系统1的控制指令，提升到更高的频率（超过1000Hz），实现动作的平滑、精准执行，解决动作顿挫的问题。这一层对实时性与浮点计算精度的要求极高，CPU是核心计算单元——英特尔酷睿Ultra的CPU，能够实现10us以内的实时响应，满足高精度运动控制的需求。

“在具身智能的任务链路中，CPU、GPU、NPU各司其职、协同工作，才能实现最优的性能与能效比。”宋继强表示，“比如‘拿起笔，把它插进笔帽里’这个简单的任务，系统2的VLM模型理解指令（GPU支撑），系统1的Action Expert生成动作轨迹（NPU支撑），系统0的MPC控制器将动作频率提升到1000Hz（CPU支撑），三者协同，才能完成精准、平滑的操作。”

除了任务链路的适配，异构计算还能解决具身智能的可靠性与可扩展性问题。智能体的构建的是通过编排器自动完成的，而不是预先编程，这就需要编排器能够调用不同的智能体功能，而异构框架能够提供灵活的资源调度能力，支撑多智能体系统的运行。同时，异构计算能够隔离不同的计算任务，比如将实时性要求高的运动控制任务，与实时性要求低的AI推理任务隔离开来，避免相互干扰，提升系统的可靠性。

从概念热潮到产业攻坚，从技术验证到小规模落地，具身智能的发展，正迎来前所未有的机遇与挑战。边端侧计算设备的异构集成、工业级升级与边端云协同，为具身智能的落地提供了坚实的算力支撑；异构计算的普及、AI模型的优化与软件生态的完善，为具身智能的技术突破提供了核心动力；而场景驱动、生态协同、标准统一，则为具身智能的规模普及指明了清晰的路径。（文｜Leo张ToB杂谈，作者｜张申宇，编辑丨盖虹达）