灵初智能想做具身智能时代的“卖铲人”|动作|大模型|机器人|模态|灵初智能|轨迹

作者：高恒（中国科技新闻学会科幻传播与未来产业专委会会员专家）

灵初智能最近接连发布模型、开源数据和融资消息，但这些动作真正指向的，不是又一家机器人公司站上风口，而是具身智能行业正在换一道题：机器人到底从哪里学会干活。

按照公司披露，灵初智能新一代具身智能模型Psi-R2在MolmoSpaces榜单中超过PI、DreamZero等模型，位列全球第一；同时发布Psi-W0，并开源1000小时高质量人类操作全模态数据集。随后，公司宣布完成新一轮融资，投资方包括国投先导、京西瑞瓴。

灵初智能的野心也藏在这里。它押注的不是整机出货，而是人类操作数据、灵巧手、世界模型和物流场景里的数据闭环。换句话说，它想抢的不是一台机器人，而是机器人学会干活之前最稀缺的数据入口。但这条路能不能走通，最终不看榜单，也不看融资，而要看这些数据能不能进入模型、进入仓库，并变成客户愿意持续付费的生产力。

01：多轮融资背后，资本押的是数据入口

灵初智能被资本看见，首先是因为它踩中了具身智能最热的融资窗口。但比“又一家机器人公司拿钱”更值得看的，是它把故事讲到了一个更底层的问题上：机器人训练数据从哪里来。

公开报道显示，灵初智能已完成天使轮及Pre-A轮合计20亿元融资。天使轮投资方包括国开金融、国中资本、央视融媒体产业投资基金、某千亿上市公司旗下战投、长飞光纤旗下基金等；Pre-A轮由上海国资徐汇资本等领投，部分地方国资及市场化基金跟投。4月12日，公司官方公众号又宣布获得国投先导、京西瑞瓴的新一轮投资。

这些融资动作要放在整个具身智能赛道里看。投中嘉川CVSource数据显示，2025年具身智能融资规模达到329亿元。另有媒体报道，据不完全统计，2026年至今，中国具身智能及机器人赛道已披露融资合计约200亿元。短短几个月，行业里多出七家新晋独角兽，银河通用、千寻智能、自变量机器人、智平方、星动纪元等公司，都在资本热潮里被快速推高估值。

但钱多并不代表商业模式已经清楚。具身智能现在至少有三种下注路径：有人押机器人本体，有人押“大脑”模型，也有人押更底层的数据入口。灵初智能更接近第三种。它不是一家典型的整机公司，按照公司和相关报道中的定位，它更像“小全栈”：不重资产押整机制造，而是把重心放在端到端VLA模型、灵巧操作、数据采集工具链和部分硬件设计上。

这条路线有现实基础。大语言模型可以从互联网上获得大量文本，自动驾驶可以靠车队路测积累数据，但机器人学会折纸盒、扫条码、装手机、抓衣服，不能只靠网页和视频。它必须在真实世界里理解物体、动作、触觉、空间位置和作业节拍。具身智能行业已经不缺会展示的机器人，缺的是可以规模化训练机器人的真实数据。

这也是灵初智能被资本押注的核心逻辑：它试图先卡住机器人训练所需要的数据入口，再通过模型和灵巧操作能力，把数据转化为场景里的生产力。

但问题也在这里。数据采集看起来像机器人时代的“卖铲子”生意，可它是不是长期生意，还没有答案。等机器人真正大规模部署以后，数据可能从实际作业中自然回流。到那时，单纯采数据未必有足够壁垒。灵初智能必须证明，它不只是能采数据，还能把数据变成模型能力，再变成客户愿意付费的生产力。

02：它为什么押人类操作数据

如果说多轮融资解释了资本为什么看见灵初智能，那么Psi-R2、Psi-W0和近10万小时人类操作数据，解释的是它想怎么卡住这个数据入口。

按照公司披露，Psi-R2的预训练同时使用真机数据和人类数据。其中，真机数据来自 Psi-MobiDex数据集，规模为5417小时；人类数据规模达到95472小时，覆盖294种场景、4821种任务和1382种物体。与此同时，公司还开源了1000小时高质量人类操作全模态数据集。

这组数据的关键，不在人类操作数据“接近10万小时”这个数字本身，而在它回答了一个行业难题：机器人训练数据到底从哪里来？

过去，行业常用真机遥操作。人盯着屏幕控制机械臂，让机器人一遍遍完成任务。这条路直接，但成本高、速度慢，还需要专业设备和场地。更关键的是，遥操作的节奏往往跟不上真实生产。一个模型如果要从简单抓取走向长程作业，只靠这种方式很难堆出足够数据。

仿真也能快速生成数据，便于并行训练，但它的问题同样明显：仿真和现实之间存在差距。真实世界里的摩擦、变形、遮挡、接触误差，很难被完全还原。尤其在灵巧操作里，差一毫米，结果可能就完全不同。

灵初智能选择回到人身上。

人类本来就在仓库、便利店、工厂里完成大量高频动作：抓取、扫码、分拣、装配、折叠、插接。这些动作天然带着任务目标、物体关系和工作节拍。灵初智能的设想是，让人戴上多模态数据手套，在真实场景里干活，把视觉、触觉、关节角等信息采下来，再把这些人类操作数据转化成机器人可用的数据。

这和单纯视频学习、传统遥操作都不一样。视频主要记录“人看到了什么”，数据手套试图记录的是“人的手具体怎么动”：关节如何变化、触觉何时出现、动作轨迹如何完成。对机器人来说，这些才是学会操作的关键细节。

它的模型分工也围绕这个目标展开。Psi-R2 是策略模型，负责学习“这件事该怎么做”；Psi-W0 是世界模型，负责推演“换种做法会怎样”。公司披露，Psi-W0 在训练中加入了约30%的失败样本，让模型不只学习成功轨迹，也理解失败如何发生。

这一步很重要。真正难的不是让机器人模仿一次成功动作，而是让它知道为什么会失败，以及失败后怎么调整。对高精度任务来说，人类抓苹果的动作映射到机器人身上，可能只差一点点就抓不起来。世界模型的价值，就是在真实执行之前，先帮机器人在模型里试错。

不过，这条路线不能被简单理解成“数据越多越好”。真正决定数据价值的，不只是规模，而是信噪比、精度和节拍。任务多样性比物体多样性更重要，物体多样性又比场景多样性更重要；在感知模态上，精准3D位姿的价值高于触觉，触觉又高于普通2D图像特征。

这说明，人类操作数据虽然丰富，但并不天然等于机器人能力。人手和机械手结构不同，人的动作不能直接平移到机器人身上；纯第一视角视频成本低，但精度不足；触觉数据有价值，但不同硬件格式难统一。

这也是灵初智能这条路线最大的门槛：采到人类数据只是第一步，把人的操作稳定迁移成机器人的能力，才是真正的难题。

03：最终答案不在榜单，在仓库里

模型能不能成立，最终要回到场景里验证。对灵初智能来说，这个场景暂时不是家庭，也不是舞台上更容易传播的人形机器人表演，而是物流和零售。

但物流和零售不是一个笼统场景，真正有价值的是其中高频、可量化、又有足够复杂度的细分环节。灵初智能首站选择服装仓储，是因为这个场景贯通仓库、门店和C端，SKU极其丰富，颜色、包装、尺寸各不相同，天然能产生大量多样性数据。

这个选择相对务实。家庭场景极端情况太多，短期内难闭环；传统工厂数据又太封闭，迁移价值有限。服装仓储介于两者之间，既复杂，又相对可控。一个“扫码”动作看似简单，但要做到99.9% 以上成功率，还要跟上稳定作业节拍，已经足以检验机器人是不是具备真实生产力。

公开报道提到，灵初智能的数据手套已经实现硬件落地，北京地区100套设备正在部署；此前公司已完成1万小时量级真实手套数据验证，2026 年目标是突破100万小时量级。公司还计划把分布式数据采集和微支付结合，用户可以购买或租赁数据手套，在家完成简单操作3分钟获得1—1.5美元报酬。

这意味着，灵初智能不是只想做一次性数据采集，而是想把数据采集做成可持续扩张的网络。这个设想有想象力，也有明显的不确定性：分布式采集能降低成本，扩大数据来源，但越分散的数据，越考验质量控制、任务标准化和后续清洗对齐能力。如果采来的数据不能稳定转化成机器人可执行轨迹，规模越大，噪声也可能越大。

更关键的是，即便数据和模型跑通，具身智能公司也必须面对一个更现实的问题：客户到底愿不愿意持续付费。

人形机器人场景应用联盟的不完全统计显示，2025 年中国市场公开披露的人形机器人中标项目超过292个，披露合同金额合计超18.1亿元；但其中235个项目金额在500万元以下，单笔过亿元项目只有4个。多位投资人和行业人士还提到，部分具身智能订单存在“水分”，不少更像展示采购、意向订单或数据采集合作，而不是真正意义上的生产力替代。

这才是灵初智能接下来真正要面对的市场。MolmoSpaces榜单第一、接近10万小时人类操作数据、1000小时开源数据集，都能证明它在技术和数据上有动作。但客户最终不会为榜单付费，只会为更低成本、更高效率、更稳定的作业结果付费。

所以，灵初智能最值得看的，不是它又融了多少钱，而是它能不能跑通一条闭环：用数据手套采到真实人类操作数据，用Psi-R2和Psi-W0把数据转成模型能力，再让机器人进入物流和零售场景干活，最后从真实作业里继续回流数据。

如果这条链路跑通，它就不只是具身智能融资潮里的一家公司，而可能成为机器人时代的数据基础设施公司。可如果链路跑不通，它也会被卷进行业共同困境：Demo很多，订单很薄，技术看起来很近，真正替代生产力还很远。

2026年的具身智能，不宜简单说成商业化爆发元年。更准确地说，它是商业化验证年，也是淘汰赛开始的一年。灵初智能站在了一个有利位置，但位置不等于结果。真正的答案，不在融资，也不在模型榜单，而在仓库、货架和客户每天计算的那本账里。