机器人能叠衣服、拧瓶盖,却摸不出鸡蛋熟没熟——触觉缺失是具身智能最尴尬的短板。DAIMON Robotics这个月甩出的数据集,直接把触觉传感抬到了和视觉平起平坐的位置。

触觉传感器的硬件底子

打开网易新闻 查看精彩图片

DAIMON的核心硬件是一款单色视觉触觉传感器,指尖大小的模块塞进超过11万个有效传感单元。这个密度让机器人能感知接触面的微小形变,比如捏住鸡蛋时壳的应力分布。

公司成立两年半,一直靠卖传感器和解决方案活着。但创始人王煜(Michael Yu Wang)的野心显然不止于此——他要把触觉从"辅助功能"变成和视觉、语言并列的第四模态。

王煜的背景够硬:卡内基梅隆博士,师从抓取领域泰斗Matt Mason,后来创办香港科技大学机器人研究所,IEEE Fellow,前IEEE自动化科学与工程汇刊主编。四十年攒下的学术资本,全砸在解决机器人"麻木"这件事上。

数据集里有什么

Daimon-Infinity号称全球最大"全模态"物理智能数据集,几个关键数字:

• 百万小时级多模态数据
• 超高清触觉反馈
• 80多个真实场景
• 2000多项人类技能

场景跨度从家庭叠衣服到工厂流水线装配。数据采集靠分布式"实验室外"网络,年产数百万小时。这次开源了1万小时——对学术圈来说,这是能直接拿来训模型的弹药。

合作方名单也很有意思:Google DeepMind、西北大学、新加坡国立大学。DeepMind的参与说明这套数据不只是硬件公司的自嗨,而是被纳入了更大的具身智能研究版图。

VTLA架构:触觉上位

王煜团队提出的Vision-Tactile-Language-Action(视觉-触觉-语言-行动)架构,把触觉从"锦上添花"变成核心输入。传统VLA模型(视觉-语言-行动)主导当前机器人控制,但纯视觉在精细操作面前频频翻车——比如判断"抓稳了没"只能靠猜。

触觉的难点在于数据。视觉有ImageNet,语言有Common Crawl,触觉呢?几乎没有大规模标准化数据集。每个实验室的传感器规格不同,数据格式各异,模型根本泛化不了。

DAIMON的策略是"以量换质":用高分辨率硬件+分布式采集网络,先堆出足够大的数据池,再倒逼行业形成事实标准。这和当年ImageNet的路数如出一辙。

落地场景:从酒店到便利店

王煜提到两个具体场景:酒店和中国的便利店。

酒店服务机器人需要处理行李、递送物品,触觉能帮它判断"抓没抓牢""门把手拧开了吗"。便利店更复杂——补货、整理货架、处理生鲜,全是精细操作。

这些场景的共同点:环境半结构化、任务多样、对失败容忍度低。纯视觉方案在实验室里能跑通,真 deployed 了就是灾难。触觉的加入,本质是给机器人增加了一层"物理常识"。

为什么现在开源

一个成立两年半的硬件公司,为什么不闷头卖传感器,反而砸钱做数据集?

答案藏在具身智能的竞赛逻辑里。当前机器人赛道,硬件差异化窗口正在收窄——大家都能买到电机、减速器、摄像头。真正的护城河是数据,尤其是高质量、多模态、带物理反馈的数据。

DAIMON开源1万小时,既是在学术界建立影响力,也是在产业界抢占"触觉数据"的定义权。等更多研究者用这套数据训练模型,DAIMON的传感器自然成为事实标准。

这是典型的"基础设施先行"策略:不直接卖终端产品,而是成为终端产品离不开的底层组件。

行业影响判断

这件事的重要性在于,它可能改变具身智能的数据竞争格局。

当前机器人学习高度依赖视觉-语言预训练,但物理交互的反馈环路长期缺失。DAIMON的数据集如果形成生态, tactile modality 将从"可选功能"变成"默认配置"。

对从业者来说,这意味着两个机会:一是基于这套数据开发新的控制算法,二是围绕触觉传感器的软硬一体化方案。对投资者来说,需要重新评估"触觉"在机器人产业链中的位置——它可能不是边缘配件,而是和算力、感知并列的核心基础设施。

下一步观察指标:有多少顶会论文采用这套数据,以及哪些机器人厂商开始集成DAIMON的传感器。