5月6日消息,RoboScience机器科学近日完成了10亿元人民币A轮融资,投资方涵盖多家国内外知名产业巨头及一线财务机构。
公开资料显示,RoboScience于2024年底注册,2025年3月正式运营,距今不过一年半。从种子轮到A轮,累计融资已超13亿元,成长速度在行业内居于前列。
据消息人士透露,RoboScience 的新一轮融资也接近完成,投资方包括互联网产业资本、国家队基金及顶级财务机构。
PART.01
创始团队:苹果+斯坦福的“降维打击”
创始人兼CEO田野,本科中科大物理学院,硕士斯坦福AI Lab,师从吴恩达。更关键的是,他曾在苹果公司担任AI Platform技术负责人,带队打造了被内部誉为“苹果的PyTorch与CUDA”的核心基础设施平台。
这个经历很有意思。苹果不是一家传统的AI公司,但它的AI产品落地能力极强——App Store背后是全球数百万开发者的生态,AI技术要在这样的环境下跑通,难度不亚于任何一家纯AI公司。
田野选择创业的逻辑也很直接:苹果证明了“AI技术+产品落地”这条路是通的,但具身智能领域的“产品落地”还远远没有实现。
首席科学家邵林,博士同样来自斯坦福AI Lab,师从Jeannette Bohg,联合导师是Leonidas J。 Guibas——几何计算的顶级学者。目前他在新加坡国立大学计算机系担任助理教授,提出了UniGrasp深度神经网络架构,成为数据驱动灵巧手抓取的基准性方法。
学术圈的都知道,在机器人操作领域,ICRA最佳论文奖的含金量极高。2025年,RoboScience团队提出的D(R,O)Grasp拿了ICRA机器人操作与运动最佳论文奖——这是近5年唯一来自亚洲的获奖团队。2026年,他们的T(R,O)Grasp再次刷新全球SOTA,入围ICRA 2026。
那么,学术成果能不能真正转化为产品?
从团队背景看,核心成员来自斯坦福、中科大、港大、上交大、新国立等高校,以及苹果、商汤、科沃斯等企业。产学研的闭环在这里形成了——邵林在学术端持续输出,田野在产业端负责落地,中间还有一批从头部公司出来的工程化人才。
PART.02
VLOA大模型的差异化路径
具身智能行业,大部分公司在讲“视频生成”或“世界模型”的故事,核心思路是“让机器人先'看'到要做什么”。
这个思路本身没问题。但问题在于,视频预测关注的是“机器人的视角看到什么”,而不是“物体的状态发生了什么变化”。
RoboScience的技术路线不太一样。他们的大模型叫VLOA——Vision-Language-Object-Action,字面意思就是把物体(Object)单独拎出来,作为连接视觉、语言和动作的中介。
具体来说,VLOA引入了一个叫“Object Trajectory”的概念——物体3D点云轨迹。不是让机器人预测“我要做什么的动作”,而是预测“这个物体接下来会怎么移动”。
这个区别很关键。比如你要让机器人把一个杯子从桌上拿起来。视频预测的思路是:机器人先想象自己伸手、抓住、抬起的画面。物体轨迹的思路是:机器人先预测“杯子会沿着什么轨迹移动”,然后把自己的动作适配到这个轨迹上。
两种思路都能完成任务,但第二种更符合“物理因果”——机器人的动作是因,物体的移动是果,抓住“果”比模拟“因”更容易泛化。
VLOA的架构分为两层:上层是具身世界模型,负责“认知+预演物理轨迹”;下层是通用操作模型,负责“把轨迹转化为不同机器人的控制信号”。
这样的设计让RoboScience的操作模型具备了几个关键能力:支持刚体、铰链体、1D/2D/3D可形变体;支持跨本体操作——也就是说,同一个模型可以适配不同的机器人硬件;支持闭环操作和视觉、触觉、力觉多模态感知。
从数据积累看,RoboScience目前有“数百万小时以物体为中心的高维多模态操作数据集”,每周还在新增数十万小时,目标是2026年达到上千万小时。仿真数据方面,他们自研了多模态物理引擎,已经有数百亿次高质量操作轨迹数据,目标是2026年达到1万亿次。
这也就意味着他们的模型是在“海量数据+物理仿真”的双重加持下训练的。不同于纯视频数据,仿真数据可以精确标注“物体状态变化”,而这正好是VLOA的核心需求。
PART.03
14个月从0到“本体+大脑”
通常来说,创业公司会先选择一个切入点——要么做本体,要么做大脑。
而RoboScience选择两个都自己做,"软硬一体"。
他们将在近期发布自研机器人本体,涵盖零售、物流、工业与家庭等场景。配合VLOA大模型,形成了“软硬一体”的完整闭环。
这个策略有风险。软硬一体意味着同时做两件很难的事:硬件的工程化量产和软件的能力泛化。行业里折在这上面的公司不少。
但换个角度看,软硬一体也有它的逻辑。
现在行业里的问题是:本体公司和大脑公司互相不信任。本体公司觉得“模型公司不了解硬件”,模型公司觉得“本体公司不懂AI”。这种割裂导致“本体+大脑”的整合方案很难真正落地——出了问题,双方互相推诿。
RoboScience的选择是把两个能力都握在自己手里。这需要更高的研发投入,但好处是出了问题只有一个责任方,迭代速度会更快。
有意思的是,RoboScience的商业模式不只有“软硬一体”这一条路。他们还提到了“模型即服务”的潜在模式——API调用和解决方案授权。
如果VLOA的能力足够通用,这种授权模式是有想象空间的。想象一下:一家工业机器人公司,不需要自己训练大模型,直接调用VLOA的API,就能让自己的机器人具备灵巧操作能力。这比“软硬一体”更轻,但前提是模型能力足够强。
两条腿走路。这是RoboScience的商业策略。
PART.04
2026年的具身智能走到哪一步了?
2026年以来,国内具身智能领域公开融资总额已超345亿元。这个数字不小,但更值得关注的是结构变化——资本从整机向关节模组、传感器、灵熟手等上游核心部件渗透。
也就是说,行业正在“下沉”。不再只是“我要做一台人形机器人”,而是开始关注“机器人的手能不能灵巧抓取”、“机器人的关节能不能精准控制”。
这个趋势对RoboScience是利好。他们的技术路线恰恰是围绕“物体操作”展开的——抓取、操控、交互。这不是做一台“看起来像人”的机器人,而是做一台“能真正做事”的机器人。
另一个趋势是,行业从“技术演示”转向“规模量产”。星动纪元联合中国邮政、顺丰,已经在10余个物流中心落地,Q2开启千台级批量交付。
量产意味着什么?意味着产品要经受住真实场景的考验,不是实验室里跑几个demo就能交代的。
RoboScience还没有公布具体的量产计划,但他们的技术路线和产品策略,都指向“能够量产、能够落地”这个目标。14个月走完从0到“本体+大脑”的闭环,速度不慢。
技术会迭代,资本会进退,但最终能穿越周期的,一定是那些真正解决实际问题、创造真实价值的企业。
未来,RoboScience软硬一体的模式,能不能真正跑通?VLOA的技术路线,能不能在更多场景验证?跨界团队的优势,能不能持续转化为产品竞争力?
我们期待着最终的答案。
文章来源:GEIA全球具身智能观察。
热门跟贴