独家｜RoboScience 机器科学完成10亿元融资，资金将用于强化 VLOA 大模型与本体|多模态|大模型|本体|机器人|机器科学|融资|轨迹

RoboScience 的技术路线聚焦于机器人与物理世界交互的本质。

作者丨张贤

编辑丨高景辉

AI 科技评论独家获悉，RoboScience 机器科学于近日完成十亿元 A 轮融资，投资方包含多家国内外知名产业巨头及一线财务机构。本轮融资将用于持续深化其核心的 VLOA 大模型技术，以及推进自研机器人本体的工程化与量产，加速通用具身智能解决方案的规模化落地。

消息人士透露，RoboScience 的新一轮融资也接近完成，投资方包括互联网产业资本、国家队基金及顶级财务机构。

2026年，具身智能已进入从实验室走向产业化的关键节点，但泛化性仍是行业共同的挑战。传统「一机一策」、接近工业自动化的操作执行方案，无法应对动态复杂场景的挑战，这一难题制约着具身智能实现真正的规模化及产业化。

以打造通用具身大模型为目标，RoboScience 的技术路线聚焦于机器人与物理世界交互的本质。团队自主研发的 VLOA（Vision-Language-Object-Action）大模型，由具身世界模型与通用操作模型深度融合，旨在打造一个适用于任何任务、任何对象、任何机器人的跨实体通用具身智能系统。

VLOA 大模型创新性地引入 Object Trajectory 作为中介接口，并以物体的连续3D点云轨迹进行表征。上层具身世界模型负责认知和预演物理轨迹，下层通用操作模型负责将轨迹转化为不同机器人的物理控制信号，实现了高层语义与底层物理规律的完美解耦，并分别用海量互联网视频及仿真数据进行预训练。

RoboScience 构建的具身世界模型是以物体交互为中心，面向三维动态场景，核心并不是在 VLA 之上外挂一个视频生成模块，不需要渲染宏大的世界，也不需要到像素级别，而是围绕具身操作所需的物体级状态、三维轨迹、接触关系和物理因果变化构建世界模型，并与通用操作模型、执行层形成统一闭环。相比当前以视频预测为中心的世界模型路线，RoboScience 的架构更接近机器人真实执行所需的底层表示，可以实现跨物体、跨任务、跨场景、跨机器人本体的通用泛化能力。

VLOA 具身世界模型的预训练基于海量互联网视频数据。通过全自动数据标注及清洗 pipeline，团队已积累数百万小时以物体为中心的高维多模态操作相关数据集（数千万 video clips），并以每周数十万小时的速度增长，目标在 2026 年构建上千万小时的全球领先数据集。

VLOA通用操作模型则通过「物理引擎-仿真数据-端到端训练」的高效闭环，解决泛化性与灵巧操作难题。模型可支持刚体、铰链体、1D/2D/3D 可形变体等全空间物体的各类操作任务；支持跨本体，支持不同类型的各种机器人及末端执行器；支持闭环操作（closed-loop）；支持含视觉、触觉、力觉等多模态感知数据。

作为通用操作模型学习物理规律的基础，RoboScience 通过自研多模态物理引擎积累了数百亿次高质量 manipulation 操作轨迹数据集，2026 年目标是构建超过 1T 高质量 manipulation 操作轨迹数据集（1万亿次全空间物体的 manipulation 操作轨迹数据）。

以抓取操作为例，RoboScience 首席科学家邵林团队已在世界顶尖学术会议发表两项领先成果，为通用操作模型奠定技术基础：通用灵巧抓取框架 D(R,O)Grasp 创新性地构建机器人与物体的交互统一表示，实现用同一个 AI 模型支持多种不同的灵巧手抓取操作，荣获ICRA 2025 机器人操作与运动最佳论文奖（近5年亚洲唯一）。团队最新研究 T(R,O)Grasp 已入围 ICRA 2026，超过1B参数量的操作大模型可以支持 5 FPS 实时动态交互，并在多种智能体上取得 94.83% 的平均抓取成功率，刷新了跨智能体灵巧抓取的全球 SOTA。

据悉，RoboScience 将于近期发布自研机器人本体，为 VLOA 大模型在真实世界规模化落地提供物理载体。

RoboScience机器科学致力于构建全球领先的具身智能大模型及本体产品，未来将推动适用不同场景的机器人本体广泛应用于零售、物流、工业与家庭等领域，提供安全、智能的解决方案。

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

公众号转载请先在「AI科技评论」后台留言取得授权，转载时需标注来源并插入本公众号名片。F