机器人触觉为什么难？这家港企押注百万小时数据

闪存猎手

2026-04-30 21:45 ·北京

机器人能叠衣服、拧瓶盖，却摸不出鸡蛋熟没熟——触觉缺失是具身智能最尴尬的短板。DAIMON Robotics这个月甩出的数据集，直接把触觉传感抬到了和视觉平起平坐的位置。

触觉传感器的硬件底子

DAIMON的核心硬件是一款单色视觉触觉传感器，指尖大小的模块塞进超过11万个有效传感单元。这个密度让机器人能感知接触面的微小形变，比如捏住鸡蛋时壳的应力分布。

公司成立两年半，一直靠卖传感器和解决方案活着。但创始人王煜（Michael Yu Wang）的野心显然不止于此——他要把触觉从"辅助功能"变成和视觉、语言并列的第四模态。

王煜的背景够硬：卡内基梅隆博士，师从抓取领域泰斗Matt Mason，后来创办香港科技大学机器人研究所，IEEE Fellow，前IEEE自动化科学与工程汇刊主编。四十年攒下的学术资本，全砸在解决机器人"麻木"这件事上。

数据集里有什么

Daimon-Infinity号称全球最大"全模态"物理智能数据集，几个关键数字：

• 百万小时级多模态数据
• 超高清触觉反馈
• 80多个真实场景
• 2000多项人类技能

场景跨度从家庭叠衣服到工厂流水线装配。数据采集靠分布式"实验室外"网络，年产数百万小时。这次开源了1万小时——对学术圈来说，这是能直接拿来训模型的弹药。

合作方名单也很有意思：Google DeepMind、西北大学、新加坡国立大学。DeepMind的参与说明这套数据不只是硬件公司的自嗨，而是被纳入了更大的具身智能研究版图。

VTLA架构：触觉上位

王煜团队提出的Vision-Tactile-Language-Action（视觉-触觉-语言-行动）架构，把触觉从"锦上添花"变成核心输入。传统VLA模型（视觉-语言-行动）主导当前机器人控制，但纯视觉在精细操作面前频频翻车——比如判断"抓稳了没"只能靠猜。

触觉的难点在于数据。视觉有ImageNet，语言有Common Crawl，触觉呢？几乎没有大规模标准化数据集。每个实验室的传感器规格不同，数据格式各异，模型根本泛化不了。

DAIMON的策略是"以量换质"：用高分辨率硬件+分布式采集网络，先堆出足够大的数据池，再倒逼行业形成事实标准。这和当年ImageNet的路数如出一辙。

落地场景：从酒店到便利店

王煜提到两个具体场景：酒店和中国的便利店。

酒店服务机器人需要处理行李、递送物品，触觉能帮它判断"抓没抓牢""门把手拧开了吗"。便利店更复杂——补货、整理货架、处理生鲜，全是精细操作。

这些场景的共同点：环境半结构化、任务多样、对失败容忍度低。纯视觉方案在实验室里能跑通，真 deployed 了就是灾难。触觉的加入，本质是给机器人增加了一层"物理常识"。

为什么现在开源

一个成立两年半的硬件公司，为什么不闷头卖传感器，反而砸钱做数据集？

答案藏在具身智能的竞赛逻辑里。当前机器人赛道，硬件差异化窗口正在收窄——大家都能买到电机、减速器、摄像头。真正的护城河是数据，尤其是高质量、多模态、带物理反馈的数据。

DAIMON开源1万小时，既是在学术界建立影响力，也是在产业界抢占"触觉数据"的定义权。等更多研究者用这套数据训练模型，DAIMON的传感器自然成为事实标准。

这是典型的"基础设施先行"策略：不直接卖终端产品，而是成为终端产品离不开的底层组件。

行业影响判断

这件事的重要性在于，它可能改变具身智能的数据竞争格局。

当前机器人学习高度依赖视觉-语言预训练，但物理交互的反馈环路长期缺失。DAIMON的数据集如果形成生态， tactile modality 将从"可选功能"变成"默认配置"。

对从业者来说，这意味着两个机会：一是基于这套数据开发新的控制算法，二是围绕触觉传感器的软硬一体化方案。对投资者来说，需要重新评估"触觉"在机器人产业链中的位置——它可能不是边缘配件，而是和算力、感知并列的核心基础设施。

下一步观察指标：有多少顶会论文采用这套数据，以及哪些机器人厂商开始集成DAIMON的传感器。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴