打开网易新闻 查看精彩图片

5 月 18 日至 22 日,高盛分析师 Jacqueline Du 带队密集走访了 14 家中国机器人公司。先是在香港 Asia Communacopia + Technology 大会上见了一批,随后连续 3 天在深圳和北京展开一轮中国 AI 机器人之旅。

这 14 家公司覆盖了市面上各类赛道上的代表公司:从做触觉传感器的戴盟机器人,到已有万台交付目标的优必选;从做 3D 视觉的梅卡曼德,到刚在 RoboChallenge 上登顶的千寻智能;还包括银河通用、星海图、极智嘉、逐际动力、灵心巧手、帕西尼、众擎机器人、越疆科技、埃斯顿、自变量机器人。

图丨相关报告(来源:Goldman Sachs)

打开网易新闻 查看精彩图片

在随后于 5 月 26 日发出的研报里,高盛用了一个克制但明确的判断:行业正在向商业化现实更进一步,但投资者需要耐心。

轮子更好用

高盛在调研中注意到一个很难忽略的现象:很多玩家正在选择轮式底盘加两到三指夹爪,而不是双足加五指灵巧手。

星海图管理层明确表示,轮式机器人配夹爪是当下更合理的选择,能覆盖约 90% 的工业应用场景。其 VLA(Vision-Language-Action,视觉-语言-动作模型)执行速度已达到人类的 80% 到 90%。越疆科技的估计是,工业需求中约 50% 可以靠机械臂解决,20% 到 30% 靠轮式人形机器人,只有剩下的 20% 到 30% 才真正需要双足。

持同样判断的公司不在少数。千寻智能也把五指灵巧手排除在了近期路线图之外,理由很简单:寿命短、成本高。三指夹爪正在测试中,即将投入实际数据采集。

不过,几乎没有一家公司会在口头上否定双足的终极价值。越疆称双足是“最终的最高泛化形态”,星海图也不排除未来做双足。但在 2026 年这个时间节点上,行业的脚正踩在轮子上。

与形态选择同步变化的是模型架构。关于具身智能模型的讨论已经不再是“VLA 万能论”。VLA 负责策略生成和动作输出,但独立运作时缺乏对执行后果的预判能力。高盛观察到,越来越多公司正在将世界模型(World Model)作为 VLA 的功能性配合层,用于下一状态预测、动作提交前验证,以及在不确定环境下增强鲁棒性。星海图、银河通用、千寻智能和众擎机器人都明确表达了这一方向。

众擎机器人 5 月 21 日刚发布的 OneModel 1.7,用了一个“潜在世界动作模型”(latent world action model),把世界模型的泛化能力和 VLA 的执行能力组合在一起,另外还加入一个“成功记忆层”,用于回溯此前的成功执行。

千寻智能走的是潜在预测路线,不做逐帧生成。其 Spirit v1.5 今年 1 月开源后,在 RoboChallenge 的 Table30 上拿到 66.09 分和 50.33% 成功率,是首个超越 Pi0.5 的中国开源具身模型。

与此同时,模型规模也在膨胀。高盛称,行业讨论已经从此前单个几十亿参数级的预训练系统,转向 40B 到 80B 参数量级的多模态栈。但多家公司强调,这些更大规模的模型组合离部署级质量还有多轮迭代的距离。

另一个新变量是触觉。VTLA(Vision-Tactile-Language-Action,视觉-触觉-语言-动作模型)正在成为部分公司的差异化方向。戴盟机器人的核心策略是做触觉小模型,作为插件层接入其他 VLA 框架。帕西尼计划下月发布一个以触觉为主导的 VTLA 模型,用来补足视觉为主的方案。两家的判断一致:在物理交互质量要求高的场景中,光靠“看”不够,还需要“摸”。

谁能量产数据,谁就拿到入场券

如果只能从这份报告里挑一个核心词,那就是“数据”。

高盛的判断很明确:高质量、真实世界、多维度的数据仍然是实际部署的首要瓶颈。但讨论的焦点已经从笼统的“数据配方”,转向了“用什么架构规模化生产数据”。

当前大致形成了两条路线。

一条是集中式数据工厂。帕西尼是最典型的代表,已经在天津、宿迁、武汉、自贡、赣州运营 5 座数据采集工厂,各自对应当地优势产业的数据类型,背后有地方政府支持。

优必选的数据工厂模式是:地方政府购买机器人并拥有数据所有权,企业通过补贴、硬件订单和数据使用权的组合获取回报。优必选 2025 年人形机器人需求中约一半来自数据工厂,管理层预计 2026 年这块需求将持平或更强。

另一条是分布式部署回流。星海图与亦庄政府合作,在“边工作边采集”模式下,以真实机器人遥操作为主,占数据组成的 80% 到 90%;同时辅以 UMI 手套(Universal Manipulation Interface,通用操作接口)、外骨骼、第一人称视角等方式。公司已开源 500 小时内部数据并获得开发者社区认可,目标是今年将数据量扩展到 100 万小时。

千寻智能已经部署 800 多台机器人,用于持续的远程监控式数据采集。部署用户还会产生付费数据回流。公司年底目标同样是累计 100 万小时真实数据,明年目标是数千万小时。

戴盟机器人走了一条更独特的路。其 DM-EXton 数据采集可穿戴设备通过运营商网点租出,用户在家采集数据,按每小时几十元计费。一旦实现大规模分发,目标是形成百万小时级数据集。

越疆科技则押注装机量的副产品逻辑:不做独立的数据采集业务,而是利用协作机器人出货建立的 15 大场景和广泛客户基础,在概念验证(POC)推进过程中同步积累真实工业场景数据,用存量客户理解驱动模型训练和场景泛化。

数据正在成为实际的收入来源。帕西尼的商业化重心就是数据和触觉传感器,其数据被用于训练约 15 个垂直模型、向大模型厂商出售,以及为机器人应用定制数据集。在物流分拣场景中,帕西尼给出的引导是,约 1 亿到 2 亿个数据点就足以支撑部署,时间线短至 1 到 2 个月,目前已经在和京东合作推进。多家公司预计,2026 年数据相关收入占比将上升。

三到六个月一轮 POC,五十台才算起步

高盛总结的商业化路径是一个多步漏斗:POC 验证通常需要 3 到 6 个月,平均要做 2 到 3 轮;随后进入小批量测试,通常每个工厂订单不超过 50 台;再经过约 12 个月验证期;到试点部署阶段,订单规模才开始向每客户 50 到 100 台靠拢。

多数行业玩家认为,大规模部署要到 2027 到 2029 年,前提是在部署级模型之上积累数千万小时的高质量数据。

目前最接近规模化交付的是优必选。公司 2026 年目标约 1 万台,其中工业 5,000 台,商业和家用 5,000 台。汽车仍是最大的工业垂直场景。2025 年下半年以来,一级汽配、半导体和 3C 的需求明显回暖,以上下料为主。

工业人形机器人的平均售价(ASP)从 2025 年的 70 万到 80 万元,降到 2026 年引导的 55 万到 65 万元。物料成本(BOM)已经从 2025 年初的约 40 万元,降到目前略高于 20 万元,近期目标是 20 万元,更长期目标是在 2027 年前后降至 10 万元。降本的主要驱动力是执行器和减速器的模块化放量,以及结构件从数控机床(CNC)加工转向模具生产。前者占 BOM 约 30%,后者占约 50%。

越疆科技的具身 AI 相关收入 2025 年只占总营收 4%,但同比增长了 4 倍。人形机器人 ASP 在 20 万到 50 万元之间,均价约 30 万元,毛利率已经做到 45%。2026 年出货引导为 300 到 500 台。

千寻智能在宁德时代的电池检测场景上已经通过 POC,并开始小批量采购。一台机器人替代一个工位,此前需要 2 到 3 个班次的人力。但管理层判断,真正的规模化要等产品标准化,大概在 2028 年前后。当前模型在新任务上的成功率约 40% 到 50%,管理层认为,60% 到 70% 才是约束显著放松的门槛。

灵心巧手是另一个有意思的样本。管理层称,其在高自由度灵巧手市场占据全球 80% 以上份额,是唯一实现月产 1,000 台以上高自由度灵巧手的厂商,峰值产能 4,000 台,产品 ASP 比海外竞品低 50%。

但在商业化策略上,灵心巧手故意避开了搬运、分拣这类同质化场景,押注长期高价值技能。其 LinkerSkillNet 平台拥有全球最大的真实世界灵巧操作数据集,覆盖超过 500 种技能。

在国内市场,软件和技能目前主要通过硬件捆绑销售实现变现,并加入技能溢价;美国客户更接受按结果付费的租赁模式,回收期约 6 个月。管理层称,预计 3 到 5 年内能复刻所有人类精细操作。

众擎机器人则直接给了一个消费端的成本锚点:3,000 美元 BOM 是家用场景大规模进入的关键门槛,Onero 当前目标 ASP 约 1 万美元,为夹爪版本。降本路径是用软件算法补偿硬件精度不足,同时持续优化核心零部件。不过,家用场景在安全性和稳定性上的门槛远高于工业,管理层预期的消费端时间线是 3 年后。

高盛给这份报告起的副标题是“向商业化现实更进一步”。这个表述很准确:行业确实在进步,但离真正的规模化交付,中间还隔着好几年的POC和验证期。

14 家公司中,真正形成稳定订单规模的屈指可数,大部分还在 POC 和小批量测试之间反复。行业共识把大规模部署窗口锁定在 2027 到 2029 年,而这本身又建立在一个假设之上:到那时,数据量和模型质量能同时跨过某个临界点。

摩根士丹利今年初已经把 2026 年中国人形机器人销量预测从 1.4 万台上调到 2.8 万台。但这些数字里有多少是数据工厂采购,有多少是真正替代劳动力的工业订单,目前并不明了。

参考资料:

1.https://finance.biggo.com/news/NhwsY54BaoGGrU-I2QmE

运营/排版:何晨龙

注:封面/首图由 AI 辅助生成