机器人前瞻(公众号:robot_pro)作者 江宇编辑 漠影
打开网易新闻 查看精彩图片
机器人前瞻(公众号:robot_pro)作者 江宇编辑 漠影

机器人前瞻2月11日报道,昨日,原力灵机在首次技术开放日Dexmal Open Day上,集中发布了具身原生大模型DM0具身原生开发框架Dexbotic2.0、以及具身原生应用量产工作流DFOL三项技术成果。

这是原力灵机自2025年成立以来,首次对外完整呈现其具身智能的技术体系,覆盖模型训练、框架开发到工程部署的全链路。

打开网易新闻 查看精彩图片

在当前业内多数具身智能公司仍处于单点技术验证阶段之际,原力灵机选择直接奔向具身智能的“原生时刻”。

在技术开放日之前,创始团队四位核心成员——CEO唐文斌、范浩强、周而进与汪天才接受了包括机器人前瞻在内的媒体采访。

他们透露:过去一年,原力灵机重点搭建了具身智能基础设施与业内首个真机评测平台RoboChallenge,补上行业长久以来缺失的“评测地基”。

而现在,原力灵机在此基础上推出了具身原生大模型DM0,作为这一体系的阶段性答卷。

一、2B参数登顶真机榜单,是“智能密度最高”的具身大模型

在模型普遍以参数量为主要竞争指标的当下,DM0展现出一种不同的突破方式。

其推出的具身原生大模型DM0,在真机评测平台RoboChallenge的30多个桌面级任务中取得了最高综合得分,成为首个同时拿下“单任务”和“多任务”双榜第一的具身大模型。

打开网易新闻 查看精彩图片

▲真机评测目前位列RoboChallenge-Table 30全球第一

尽管参数量仅为2.4B,DM0在毫米级工业操作中依然展现出高度稳定的执行性能。

这一结果不仅打破了“大模型=高性能”的简单叠加逻辑,也释放出一个明确信号:在具身智能场景下,智能密度或许比参数体量更值得关注。

原力灵机团队认为,“DM0只有2.4B参数,但它理解‘拿起杯子’和‘轻轻放下杯子’的区别——这不是参数量能堆出来的,这是原生设计带来的物理直觉。”

打开网易新闻 查看精彩图片

而何为“原生设计带来的物理直觉”?

正如原力灵机合伙人周而进所言:“我们不是拿一个现成的VLM(视觉语言模型),再外挂一个动作头。而是从VLM的第一天起,就把具身数据加了进来,从头训练出来的。”

他将这种方式比作婴儿学习:“就像人类婴儿,不是先会说话、再学找奶瓶,而是从出生那一刻起就在和物理世界打交道。”

也正因此,DM0从数据到结构,都是为具身任务量身定制的。

▲应用场景案例:扫码计价格

其训练融合互联网多模态数据、驾驶行为数据与具身多传感数据,通过“空间推理链”机制,将感知、理解与动作生成打通为闭环。

打开网易新闻 查看精彩图片

其训练流程分为三个阶段:首先在视觉-语言数据上完成VLM预训练,其次在多任务跨机型的具身数据上进行空间推理建模,最后通过SFT完成硬件适配。正是这一从零构建的范式,使DM0打破了微调模型的性能上限,具备更强的泛化与执行能力

在操作泛化方面,DM0预训练覆盖了操作、导航、全身控制3类任务。目前,DM0已覆盖UR、Franka、ARX、Aloha等8类主流机器人机型,目标是推进具身模型从“一机一模型”走向“通用策略”。

打开网易新闻 查看精彩图片

此外,DM0采用高分辨率图像输入,并控制在60ms内推理延迟,在4090、5090等在消费级显卡上就能进行二次开发与微调。

周而进解释道,目前不少VLA模型仍采用224至384的输入分辨率,这在执行精细动作时容易因像素误差放大而影响表现。因此,原力灵机团队针对精细操作场景设计了728×728高分辨率输入,并希望模型能直接处理720P级别的视频画面,同时尽可能控制精度损失。

DM0当前已在Hugging Face、GitHub等平台完成代码与权重开源,同时发布了RoboChallenge Table30全套评测任务的推理代码 。

在DM0开源的基础上,原力灵机也披露了后续的技术推进计划。

团队透露,2026年,原力灵机将持续发布新一代具身模型,扩展路径不仅包括参数规模的增长,还将涵盖更丰富的数据维度、更大规模的真机强化学习实验,以及任务类型与执行时长的进一步拉长。

具体而言,未来模型将支持更长链条的复杂任务,从当前的3-5分钟延伸至十分钟以上,并计划引入结合world model与memory的闭环架构。

二、从训练到部署,这家公司在补上具身智能的工程断层

在模型之外,原力灵机这次同步升级并开源了具身原生开发框架Dexbotic2.0

打开网易新闻 查看精彩图片

相比单点算法更新,这套框架更直接指向一个现实问题:具身智能到底该如何被高效地开发、复用和验证。

原力灵机合伙人汪天才透露,自2025年10月推出1.0版本以来,已有数十家机构与高校、上千名开发者使用该框架。此次升级的2.0要进一步扩大它在具身生态中的职能范围,降低具身算法开发门槛。

Dexbotic2.0以“V(视觉)、L(语言)、A(动作)”为模块化组合方式,允许开发者自由替换子模块,快速实验任务流程。

▲插线板

正如原力灵机团队所言:“PyTorch让每个研究者都能快速验证想法,我们希望Dexbotic2.0也能做到类似的事情——让开发者能用‘乐高式’方式搭建自己的具身应用。”

该框架支持Libero、CALVIN、ManiSkill等主流仿真环境与SO-101、DOS- W1等真机平台。

为了构建更完整的开发生态,原力灵机还联合清华大学、无问芯穹团队,打造统一模仿学习与强化学习开发链路,推动“具身智能的PyTorch”生态成型。

如果说模型与框架回答的是“如何训练”,DFOL方案针对的就是“如何上线”。

打开网易新闻 查看精彩图片

这是原力灵机发布的用于机器人在真实场景中持续进化的部署系统,其核心是“数据回流闭环”:机器人现场执行任务时自动采集训练片段(episode)与负样本(chunk),回传至云端,更新策略后再次部署。

▲工装上料以及扣合

其部署方式已覆盖工件装配、布料分拣等任务,并控制在两天内完成从数据采集到稳定输出的流程。

原力灵机团队认为:“具身智能的死亡之谷不是技术问题,是工程问题、是成本问题、是规模化复制的问题。”

三、数据不只看时长,落地不靠想象,这支团队选了一条难而正确的路

随着交流逐步深入,我们也对原力灵机团队的长期规划产生了不少好奇。

这家成立时间并不算长的公司,已经呈现出相对完整的技术体系。其团队成员几乎全部来自“AI 1.0”时代,拥有在旷视打磨视觉模型和软硬协同方向的实战经验,部分成员也曾主导CV技术的产业化落地。

我们关心的问题主要集中在两个方向:具身数据该怎么扩展、商业化节奏如何把握。

团队谈道,目前训练中使用的互联网、自驾数据远多于具身数据,但在使用过程中会动态调整配比,三类数据基本以均衡比例参与训练。

打开网易新闻 查看精彩图片

▲DM0由多源数据混训

在Scaling路线图上,他们明确提出:这不应只看“小时数”的增长。原力灵机创始团队成员范浩强认为,Scaling是一个多维扩展过程,要兼顾任务复杂性、环境真实性,2025年的目标是从“万小时”跃迁至“几十万小时”级别

汪天才则补充,除了总时长,还必须同时提升“训练方式质量、数据质量、模型参数”三条轴线。他认为,当前行业中一些模型智能密度不高,根源在于训练方式本身的不足。

针对当前行业中“用视频训练机器人”的做法,原力灵机团队也表达了自己的看法。他们认为,视频是一种重要的数据形式,但并非全部,尤其在具身智能中远远不够。

周而进打了一个比方:“就像你把梅西所有踢球的视频都看了一遍,也不代表你会上场踢球。看优秀运动员的视频肯定有帮助,但不替代你在场上亲自去找感觉。”他认为,视频可以提供感知上的丰富性,却无法支撑机器人对物理世界的直接控制。

在他们看来,当前能较为完整刻画物理世界的三类数据,分别是互联网多模态数据、驾驶行为数据与具身多传感数据。其中具身数据又包括室内导航与操作类数据,是目前唯一能覆盖闭环决策与控制的样本来源。

对于外界最关心的商业化问题,原力灵机创始人兼CEO唐文斌将当前产品形态划分为两类:一是面向客户的端到端方案,原力灵机要负责从算法到硬件系统的完整交付,更接近Solution Provider(解决方案提供商)的角色,在业务方向主要集中在工业和物流场景,聚焦仓储和产线。二是面向科研场景的标准化产品,例如数据采集机型等,用于支持生态开发。

谈及业界对“闭环落地”的预期,范浩强判断:“2026年闭不了环”是目前的共识。2025年仍是探索期,2026年可能出现真实使用的案例,而真正达到几十套、上百套的部署规模,仍要等到2027年之后。

结语:从框架、训练到应用,原力灵机释放“工程型供应商”的信号

当前具身智能领域,很少有团队能像原力灵机这样,把模型、框架、部署三段流程做成体系并对外发布。

在成立不到一年的时间里,这支由旷视系核心成员唐文斌、范浩强、周而进、汪天才等组成的团队,已完成模型开源、框架应用落地、系统级部署方案构建,迈出了向工程型系统供应商过渡的关键一步。

当行业寻找具身智能从实验室走入工厂、物流、家庭的落地逻辑时,原力灵机已先抛出了他们的版本。