DAIMON Robotics：为机器人赋予触觉感知能力|robotics|机器人|真实世界|视觉|触觉感知

本文由 DAIMON Robotics 提供支持。

今年4月，总部位于香港的 DAIMON Robotics 正式发布了 Daimon-Infinity 数据集。该公司将其定位为目前全球规模最大的面向实体 AI 的全模态机器人数据集，具备高分辨率触觉感知能力，涵盖从家庭叠衣到工厂流水线制造等多种应用场景。该项目获得了来自中国及全球多方合作伙伴的协作支持，包括 Google DeepMind、西北大学和新加坡国立大学。

此举标志着 DAIMON 一项重要的战略部署。这家成立仅两年半的公司以先进触觉传感器硬件著称，其核心产品是一款单色视觉触觉传感器，能够在指尖大小的模块中集成超过11万个有效感知单元。依托高分辨率触觉感知技术，以及每年可产生数百万小时数据的分布式实验室外采集网络，DAIMON 正在构建包含大量触觉感知数据的大规模机器人操作数据集。为加速实体 AI 的现实部署，该公司还开源了1万小时的数据。

这一战略背后的核心人物是 DAIMON 联合创始人兼首席科学家王煜教授。王教授在卡内基梅隆大学师从机器人操作领域权威 Matt Mason 完成博士学业，后创立了香港科技大学机器人研究所。他是 IEEE 会士、曾担任《IEEE 自动化科学与工程汇刊》主编，在该领域深耕近四十年。他的目标是解决机器人操作中长期存在的"感知缺失"问题——现有方案主要依赖视觉-语言-动作（VLA）模型，而他与团队开创性地提出了视觉-触觉-语言-动作（VTLA）架构，将触觉提升为与视觉并驾齐驱的感知模态。

我们就触觉反馈如何改变灵巧操作、数据集计划将如何深化机器人在自然环境中的能力理解，以及触觉机器人将在哪些场景率先落地等话题与王教授进行了深入交流。

为何选择现在发布数据集

DAIMON Robotics 已成立近两年半。我们一直专注于开发高分辨率多模态触觉感知设备，用于感知机器人手部（尤其是指尖）与物体之间的交互。目前，我们的设备已相当成熟，被学术机构及顶尖人形机器人企业广泛采用。

随着实体 AI 的持续发展，数据的关键作用愈发凸显。数据稀缺仍是机器人学习的主要瓶颈，尤其是物理交互数据的匮乏，而这恰恰是机器人在现实世界有效运作的基础。因此，数据的质量、可靠性与获取成本已成为研究和商业开发中的核心关切。

这正是 DAIMON 的优势所在。我们的视觉触觉技术能够采集高质量多模态触觉数据，不仅记录基本接触力，还涵盖形变、滑动与摩擦力、材料属性及表面纹理，从而实现对物理交互的全面重建。在多模态融合专业积累的基础上，我们构建了一套完善的数据处理流程，将触觉反馈与视觉、运动轨迹及自然语言无缝融合，转化为可直接用于机器学习模型训练的数据集。

鉴于行业整体面临的数据缺口，我们将大规模数据采集不仅视为自身的核心竞争优势，更视为对更广泛社区的一份责任。通过构建和开源这一数据集，我们旨在为实体 AI 提供高质量的"燃料"，最终加速通用机器人基础模型的现实部署。

如何实现大规模数据集的构建

尽管我们是一家规模相对较小的公司，但凭借核心触觉感知技术和创新的数据采集模式，我们得以建立大规模数据集。我们构建了全球最大的分布式实验室外数据采集网络。这一轻量化、可扩展的系统摆脱了对集中式数据工厂的依赖，能够跨越多样化的真实世界环境采集数据，每年可产生数百万小时的数据量。

"为推动整个实体 AI 领域的进步，我们向更广泛的社区开源了1万小时的数据集。"——王煜教授，DAIMON Robotics

合作伙伴的角色与贡献

除中国本土团队外，合作伙伴还包括西北大学、新加坡国立大学等顶尖高校研究团队，以及 Google DeepMind、中国移动等全球领先企业。他们选择与 DAIMON 合作，充分印证了富含触觉数据的数据集所具备的重要价值。

部分合作企业已构建了自己的模型，目前正在将触觉信息融入其中。他们通过在研究、制造及其他真实场景中部署我们的数据采集设备，帮助我们获取具有高度实用性、应用驱动的数据；与此同时，合作伙伴利用这些数据训练针对各自具体应用场景的专属模型。

为何触觉感知不可或缺

在将通用机器人应用于操作任务（尤其是灵巧操作）的多年探索中，我们的目标不仅仅是抓握或夹持物体，而是真正意义上的物体操控——使用工具对零件施加力和运动。这类机器人将被应用于家庭和工业装配等场景。

触觉信息对于感知接触状态至关重要，能够引导机器人手指完成可靠的操作任务，这一点已得到充分验证。缺乏触觉感知的机器人存在严重局限：在黑暗环境中难以定位物体；缺少滑动检测，容易损坏玻璃等易碎物品；无法精确控制力度，导致操作失败甚至造成物理损伤。因此，在 VLA 框架基础上融入触觉信息势在必行——我们正是通过引入触觉数据，将 VLA 扩展为 VTLA 模型。

我们触觉传感器的另一优势在于其视觉化特性：通过捕捉指尖表面形变的视觉图像序列，编码接触信息，进而推断力和其他接触状态。这与 VLA 所基于的视觉框架高度契合，使得触觉信息能够自然融入 VLA 框架，实现向 VTLA 系统的转化。

为何选择单色视觉触觉感知技术

在调研现有技术方案时，我们发现了多种类型的传感器，包括采用三色光学的视觉触觉传感器及其他更简化的设计方案。我们决定将其中的优势整合为一套工程上切实可行的解决方案——在成本、可靠性和灵敏度之间取得满意的平衡，最终开发出单色视觉触觉感知技术。这本质上是一种工程化路径，而非纯粹的科学研究，因为大量基础研究成果已然存在。随着触觉数据重要性的日益凸显，相关技术将协同推进、共同发展。

核心优势与潜在变革

我们传感器的关键特性在于分布式力测量的感知密度，以及对指尖接触面形变的精准捕捉。在感知单元密度方面，我相信我们处于行业领先水平。另一关键指标是动态性能，即频率和带宽——力变化检测、信号传输和实时处理的速度。此外还涉及工程层面的要素，如可靠性、漂移量、软性表面耐久性，以及对磁场、光线和环境干扰的抗性。

我们已开始观察到对触觉感知具有迫切需求的特定应用场景。例如，我们的一位潜在客户正在便利店中部署人形机器人，面对货架密集、空间极为有限的环境。机器人需要伸入极为狭窄的空间拾取物品，现有的两指平行夹爪难以适用。观察人类拾取物体的方式，明显需要至少三根纤细的手指来触碰、拨动并稳定物体，而这对触觉感知能力提出了本质要求。

创立 DAIMON Robotics 的动因

我在卡内基梅隆大学攻读博士期间开始系统学习机器人学，当时身边汇聚了一批真正卓越的研究团队——Marc Raibert（波士顿动力创始人）领导的运动控制研究组，以及我导师 Matt Mason 领导的操作研究组。此后，我们在灵巧操作领域持续深耕多年。

然而，这一领域长期进展缓慢，尤其是在构建灵巧手并使其真正发挥作用方面。直到近年来，运动机器人才实现了真正的突破，机器人手的重大进展也才刚刚出现。在香港科技大学期间，我看到越来越多的学生和博士后涌入这一领域。我的博士后 Duan Jianghua 博士具有敏锐的商业洞察力，他深刻认识到机器人市场的快速增长和我们视觉触觉感知技术的独特价值。我们由此共同创立了 DAIMON Robotics，目前发展势头良好。

商业模式与战略布局

我们的业务战略可以用"3D"来概括：设备（Devices）、数据（Data）和部署（Deployment）。我们为数据采集构建设备，建立自有生态系统，并在合作伙伴的潜在应用领域中加以部署。这一模式实现了真实世界触觉富集数据的采集和完整的闭环验证，将成为3D商业模式不可或缺的组成部分。目前，这一领域的大多数初创公司都在走类似的路径，未来部分企业可能会走向更高度专业化，或与其他公司进行更深度的整合，但目前阶段以垂直整合为主。

具身技能的愿景

AI 的出现恰逢其时。大量资源被投入 AI 开发，尤其是大语言模型，如今正被推广到世界模型领域，赋能实体 AI 能力。我们希望这些能力在现实世界系统中得到充分体现。

"我们的愿景是让机器人实现强大的操作能力，成为人类可靠的伙伴。"——王煜教授，DAIMON Robotics

虽然 AI 和核心硬件技术仍在持续演进，但方向已经更加明晰。例如，人形机器人在家庭环境中更受青睐，这是一个充满潜力的领域——如果我们最终能够实现安全、可靠、具有成本效益的机器人，将带来巨大的社会效益。

现实部署的触发点

通用机器人大规模部署的道路仍然漫长，但我们已开始在特定领域看到可行性的迹象。这与自动驾驶汽车的发展历程十分相似：全面部署的无人驾驶出租车尚未出现，但移动机器人和小型配送车辆已在酒店行业广泛落地。目前中国几乎每家大型酒店都配备了配送机器人，能够从大堂取货并自主导航至客房完成配送，实际部署率接近100%。

酒店和餐厅场景的机器人被视为人形机器人在过夜药店和便利店等特定场景落地的参考模型。我预计在相对较短的时间内，上述场景将实现完整部署，随后向其他应用领域延伸。总体而言，包括人形机器人在内的自主机器人将逐步渗透特定行业，在各个领域创造价值并持续扩张。

我们的愿景是让机器人实现强大的操作能力，成为人类真正可靠的伙伴——无缝融入我们的家庭和日常生活，切实造福人类。

本采访已经过篇幅和清晰度的编辑处理。

Q&A

Q1：Daimon-Infinity 数据集有什么特别之处？

A：Daimon-Infinity 是目前全球规模最大的面向实体 AI 的全模态机器人数据集，具备高分辨率触觉感知能力，涵盖80余种真实场景和2000余项人类技能数据，从家庭叠衣到工厂流水线制造均有收录。DAIMON 还开源了其中1万小时的数据，以推动整个实体 AI 行业的发展。

Q2：VTLA 模型和 VLA 模型有什么区别？

A：VLA（视觉-语言-动作）是目前机器人领域的主流模型，但缺乏触觉感知能力，导致机器人在黑暗环境定位困难、无法检测滑动、难以精确控制力度。VTLA（视觉-触觉-语言-动作）模型在此基础上引入触觉数据，将触觉提升为与视觉并列的感知模态，使机器人能够更可靠地完成灵巧操作任务。

Q3：触觉机器人最先会在哪些场景实现大规模落地？

A：根据王煜教授的判断，触觉机器人最有可能率先在便利店、过夜药店等零售场景实现大规模部署，因为这些场景对精细抓取操作有明确需求。此外，酒店和餐厅的配送机器人已在中国实现近乎全面部署，为人形机器人进入更多场景提供了参考路径。