作者|黄楠

编辑|袁斯来

硬氪获悉,戴盟机器人近日完成亿元A轮融资,由汇川技术旗下产业基金汇川产投与中国电信联合投资。资金将用于进一步打造超大规模含物理交互信息数据集,加速物理世界模型研发、并驱动真实物理场景下的数据飞轮与商业闭环。

戴盟机器人于2023年正式运营,核心团队长期聚焦机器人灵巧操作与物理交互智能领域。联合创始人兼首席科学家王煜教授曾任港科大机器人研究院创始院长,他所提出的“具身技能”与“技能克隆”等概念,是戴盟机器人核心技术路线的重要组成部分。创始人兼CEO段江哗博士及主要技术负责人,均来自港科大机器人研究院核心团队,具备10年操作智能Know-how。首席AI科学家原玮浩曾为阿里通义实验室多模态研究专家,拥有将世界模型迁移至机器人物理操作的前沿经验。

具身智能热度持续走高的当下,行业逻辑正在发生深刻切换。赛道发展沿着一条清晰的脉络演进:从早期机器人行走与运动控制能力的比拼,到差异化算法架构路线与“具身大脑”的探索,每轮热点轮动都为其突破积累了关键基础。

随着人形落地从舞台演示走向实景作业,整机精细化实操门槛持续抬升,能否采集高质量物理交互数据,已经成为行业落地的关键分水岭。

在主流的纯视觉感知方案中,传感器仅能捕捉物体外观,无法识别软硬、摩擦系数、受力形变等物理特征,难以支撑机器人预判物体变化。相较之下,融合触觉的物理交互数据,可完整记录瞬时受力、材料属性等关键参数,在模型规模化训练中沉淀物理常识、加速收敛,帮助机器人建立物理因果认知,落地各类精细作业。

戴盟的做法是从物理交互数据的采集和标注切入,逐步搭建起覆盖感知、操作、学习的完整技术链路,进而构建能为机器人提供物理常识的世界模型。

在认知层面,其模型可以实现视觉与触觉模态的对齐,使机器人能够从图像中推断物体的物理属性,也能从触感中反推物体形态;进入执行阶段,借助高响应频率的触觉反馈,帮助设备在接触发生的毫秒级时间内完成感知、判断与动作修正,形成闭环控制。

打开网易新闻 查看精彩图片

以物理直觉实现串葡萄、放置鸡蛋等精细操作(图源/企业)

“机器人要能干活,对物理世界因果的理解和基于真实接触的反馈必不可少。”戴盟机器人CEO段江哗告诉硬氪,一个能跑酷、能翻跟头的机器人,如果它没办法以恰到好处的力度拿起一块海绵擦拭物体,其应用价值将大打折扣。“视觉属于非接触的远端信号,它能告诉你物体在哪里,却无法告诉你接触时,为什么海绵会产生形变,而触觉,正是那个接触瞬间的‘手感’,是判断物理因果、实现精细操作的关键。”

但仅有技术和模型还不够。如何以数据闭环与专业评测标准驱动物理世界模型持续迭代,是当前业界面临的另一大挑战。段江哗向硬氪指出,“触觉数据荒的本质在于,视觉的数据表征方式已经相对统一,而触觉没有标准,也缺乏大规模、多模态的真实采集体系。”

为解决这一难题,戴盟自建了“外发式”具身数据采集网络,与传统依赖定点实验室、遥操作采集的模式不同,“外发式”采集网络通过将中心化实验室分散,实行分布式社会化采集,可以有效实现场景的真实性、采集效率的质变和边际成本的递减。

2026年4月,戴盟机器人已联合包括谷歌DeepMind等数十家海内外头部机构,发布全球最大规模的含触觉全模态物理世界数据集Daimon-Infinity,其中包含了纹理、软硬、力学等接触信息,并开源1万小时供行业免费使用;在数据集基础上,还建立了一套系统化的评测标准,于6月推出支持“真实数据训练+仿真器训练”两种模式、面向物理交互能力的含触觉全模态Benchmark体系RobOmni。

人类婴儿通过触摸来认识世界,发展智力。对于即将从工厂走进家庭的机器人而言,这一课也同样无法跳过。在解决了“看得见”和“走得稳”之后,“摸得准”正成为具身智能通往物理世界的最后,也最关键的“一公里”。而戴盟机器人,正试图在这场关于“手感”的技术进程中,定义自己的标准。

人类婴儿通过触摸来认识世界,发展智力。对于即将从工厂走进家庭的机器人而言,这一课也同样无法跳过。在解决了“看得见”和“走得稳”之后,“摸得准”正成为具身智能通往物理世界的最后,也最关键的“一公里”。戴盟向硬氪透露,其视触觉传感器出货量目前已居全球第一。它正试图在这场关于“手感”的技术进程中,定义自己的标准。

以下为硬氪与戴盟机器人CEO段江哗的访谈节选(略经编辑):

硬氪:从感知到执行,具身智能要跨越从“看懂”到“干活”的鸿沟。戴盟的物理世界模型是如何处理视触觉模态融合与底层控制的?在面对复杂操作任务时,这套架构能帮助机器人完成哪些之前做不到的事?

段江哗:我们的模型推理的是物理因果。在模型结构上,我们把物理接触拆成了两层,分别是认知层和执行层。

认知层做的事是让视觉和触觉在同一语义空间里双向映射,这类似于人类的通感。你看到一颗草莓,不用捏下去就知道草莓会有颗粒感;当你掏钥匙开门,钥匙插进门锁的那一刻,手会挡住视线,在看不到钥匙和锁孔接触状态的情况下,人类会依靠直觉和手感完成操作——有没有插进去、有没有卡住、要不要转一下?我们希望机器人也能做到这件事。

打开网易新闻 查看精彩图片

戴盟机器人用夹爪抓取鸡蛋(图源/企业)

执行层有两套机制在同时运行。一套是百赫兹级的高频触觉伺服,类似脊髓反射,不经过上层推理,物体刚开始产生滑移趋势的那一刻,补偿动作就已经发出了,视觉帧还没切换过来。这好比你在洗碗时,手里沾满洗洁精的盘子刚有一点点滑脱的迹象,你不需要用眼睛去盯着确认,手指就会立刻本能地收紧捏住盘子。

另一套是物理世界推理,模型会持续预测未来几步的操作状态,在失误真正发生之前提前给出修正策略。这好比你单手提着一个水壶往杯子里倒水,随着水流出,壶底的重心在持续变化,你的大脑会根据水的流速,持续预测下一秒壶的重量分布,提前并且平滑地调整手腕的倾斜角度,确保水流自始至终倒得平稳。

这两套机制分别对应毫秒级反应和多步前瞻,时间尺度不同,但在同一个任务里协同工作。这是我们相比纯视觉操作模型最重要的结构差异。

硬氪:戴盟最近还陆续发布了数据集和面向机器人物理交互能力的Benchmark,这跟你们在做的物理世界模型有什么联系?

段江哗:数据集是燃料,物理世界模型是引擎,Benchmark 是转速表。

传统的数据集,不管是视觉的还是仿真的,记录的是“像素变化”或者“轨迹”。但要让机器人理解物理世界,光有这些远远不够。比如一个物体是软的还是硬的?表面是光滑的还是粗糙的?抓握时正压力多大、切向力多大、有没有滑移趋势?这些都属于物理属性信息。Daimon-Infinity数据集中所采集的压力、形变、纹理、刚度、滑移趋势……加起来有十几种模态。

最大的难度,不是单独采集某一种模态,而是要把这十几种触觉模态,跟视觉图像、跟动作指令,在毫秒级的时空维度上严格对齐。

戴盟机器人实现自主穿葡萄任务(图源/企业)

举个例子,机器人手指碰到物体的那一刻,触觉传感器要记录下接触点的压力分布、纹理信息,同时摄像头要记录下这一刻的画面,控制系统要记录下这一刻的关节角度和力矩。这三者必须在时间上精确到毫秒级同步,否则模型难以学到到正确的因果逻辑。

数据有了,模型有了,下一个问题随之而来——怎么判断模型是否真的学到了物理因果?这就是戴盟推出RobOmni的意义。

具身领域现有基准评测往往侧重视觉感知模态,重点关注机器人的泛化抓取和长序列规划任务,针对触觉感知模态,接触精细操作的评估标准还没有完善。

行业仍然缺乏围绕触觉感知与灵巧操作的标准化评测基准,不同模型与数据之间缺乏统一标准,触觉能力难以量化,模型泛化能力也难以被系统性验证。

我们注意到,一些侧重仿真和 Sim2Real 领域的团队,近期也开始引入视触觉融合评估,这恰恰说明整个产业前沿正在达成共识——让机器人真正理解世界并与世界交互,纯视觉是不够的,触觉是绕不过去的。RobOmni正填补了这一缺口,为物理交互能力提供标准化、可比较、可复现、可扩展的验证入口。

没有尺子,就无法度量进步,没有标准,行业就无法形成合力,所以我们要先造一把尺子,再丈量世界。

投资方评论:

汇川产投相关负责人表示,具身智能要想实现真实场景作业的跨代跃迁,触觉感知补齐物理因果逻辑是必经之路。戴盟机器人是业内极少数从物理因果逻辑出发,以海量视触觉数据驱动,推动物理世界模型在精细操作场景落地的企业,汇川技术长期深耕工业自动化与智能机器人领域,深知多模态感知对精细操作场景的战略价值。未来期待基于汇川的场景与产业认知,与戴盟共同构建具身智能时代的触觉神经网络。

中国电信投资公司相关负责人表示,具身智能想要实现大规模商业化落地,既离不开云端大模型算力的持续迭代升级,也高度依托高精度物理感知能力与多模态数据体系作为支撑。戴盟机器人在视触觉感知赛道深耕积淀,已构建起稳固的核心技术壁垒。作为数字中国建设的中坚力量,中国电信正全力落地 “云改数转智惠” 战略。未来,我们期待与戴盟机器人深度携手,联合打造可落地、可复制的具身智能行业解决方案,共建赋能新质生产力发展的新型数字基础设施,助力加速具身产业高质量发展,实现生态共赢。