打开网易新闻 查看精彩图片

含物理交互信息的数据集,将推动机器人在现实世界落地。

今年四月,戴盟机器人联合 Google DeepMind、美国西北大学、新加坡国立大学等全球数十家机构,发布了迄今最大规模的含触觉全模态具身数据集 Daimon-Infinity,并开源 10 000 小时数据,试图为灵巧操作补上这关键一环。

值此之际,全球最大的工程与应用科学专业组织IEEE 与戴盟联合创始人兼首席科学家王煜教授进行了一次深度对话。王煜教授在机器人操作领域深耕近四十年,师从该领域奠基人马特·梅森。此次对话中他拆解了单色光视触觉技术的核心原理、从 VLA 到 VTLA 架构跃迁的逻辑,以及具身智能从实验室走向真实场景的路径。

为什么触觉感知将改变机器人的技术格局?具身机器人又将率先在哪些场景落地?这些问题的答案,都能从这场对话中找到。

以下为 IEEE Spectrum 与王煜教授对话的原文翻译:

打开网易新闻 查看精彩图片

访谈链接:

https://spectrum.ieee.org/daimon-robotics-physical-ai

原文作者:Sujeet Dutta,Wiley科学与工程部高级编辑

戴盟想让机器人拥有「手感」

强大的具身智能数据集

将赋能机器人实现灵巧操作

今年四月,戴盟机器人公司发布了迄今为止最大规模的含触觉全模态物理世界具身数据集 Daimon-Infinity。该数据集由包括 Google DeepMind、美国西北大学和新加坡国立大学在内的全球合作伙伴共建,涵盖了从居家整理衣物到工厂制造等各种任务。

此举是这家公司成立两年半以来的重要发展战略,此前它们主要以触觉传感器闻名,尤其是单色光视触觉技术路线,能在指尖大小的模块上集成超过 11 万个有效感知单元。现在,凭借行业领先的触觉感知技术,以及每年可生产数百万小时数据的外发式采集网络,戴盟建立了最大规模含触觉的具身操作数据集。在发布数据集的同时,他们开源了其中 10000 小时数据,希望以高质量数据推动具身智能在现实世界落地。

这项战略的幕后推手是戴盟机器人的联合创始人兼首席科学家王煜教授。王煜在卡内基梅隆大学获得博士学位,师从马特·梅森(Matt Mason),研究机器人操作。他与李泽湘共同创立了香港科技大学机器人研究所;作为 IEEE 会士和《IEEE 自动化科学与工程学报》前主编,他在该领域耕耘了近 40 年,被列为全球前 2% 顶尖科学家

他的目标是解决机器人操作(manipulation)中缺失的“触觉反馈”问题——目前机器人操作主要依赖于主流的视觉-语言-动作(VLA)模型,他和团队则开创性地提出了 VTLA 架构,将触觉作为与视觉同等重要的模态。

打开网易新闻 查看精彩图片

王煜教授

我们与王教授探讨了触觉如何改变灵巧操作、数据集如何提升机器人在物理环境中的表现,以及机器人将应用于现实世界中的哪些场景。

01

数据集 Daimon Infinity

IEEE Spectrum:今年四月,戴盟机器人联合了多家头部学术机构和企业,共同发布规模最大、最全面的具身操作数据集。为何选择现在发布数据集,而不是继续专注于硬件开发?这将对具身智能领域产生怎样的影响?

王煜:戴盟机器人成立至今已有两年半的时间。我们一直致力于研发高分辨率、多模态的触觉传感设备,通过记录并处理这些触觉信息,精密感知机器人手部(尤其是指尖)与物体之间的接触状态。我们的硬件产品已经非常成熟,用户众多,包括学术研究机构及前沿的人形机器人公司。

随着具身智能的发展,越来越多人意识到数据的重要性:数据不足正是目前具身智能发展的瓶颈,尤其是包含物理交互信息的数据,这将是提升机器人在现实世界操作能力的关键。数据的质量、可靠性和成本已成为研发和商业落地需要重点关注的问题。

同时,这也是戴盟擅长的事情。凭借视触觉技术,我们能够提供含多模态触觉信息的高质量数据,我们提供的触觉信息不仅包含了接触力,还有接触形变、接触状态、滑移摩擦、物体材质与纹理等,完整还原物理交互的过程。另外,基于在触觉模态融合方面的技术积累,我们设计了数据处理管线,将触觉与视觉、动作轨迹、语音文本等模态精准融合,转化为模型训练时可以使用的数据。

因此,面对行业的数据空缺,我认为,提供高质量数据是我们戴盟能做好、也应该做的事情。通过搭建并开源数据集,我们希望为具身智能提供高质量的数据燃料,推动通用机器人大模型的最终落地。

Daimon Infinity 数据集发布

IEEE Spectrum:机器人行业竞争异常激烈,许多团队都开始专攻数据。戴盟发布了一个最大规模的含触觉多模态具身操作数据集。你们是如何做到这一点的?

王煜:我们拥有一支专注于拓展自身能力的内部团队,包括硬件设备的研发和大模型的开发。尽管我们公司规模相对较小,但凭借核心的视触觉技术与创新的采集范式,我们得以构建庞大的数据集。

我们的策略是开放合作范围。我们打造了全球最大规模的外发式具身数据采集网络,依托于轻便的设备,数据采集不再局限于数采厂,而是可以进入各类真实场景,并实现每年数百万小时数据的生产能力。

IEEE Spectrum:Daimon-Infinity 由多家机构联合发布,这些机构在数据集的开发过程中分别扮演了哪些角色?该数据集将如何惠及他们的研究和产品?

王煜:此次数据集,我们联合了全球数十家机构合作共建,包括北京大学、清华大学、香港科技大学等中国高校,以及 Google DeepMind、美国西北大学、新加坡国立大学等全球顶尖研究团队,另外还有中国移动、汇川技术、上声电子等产业方。他们选择与戴盟合作,是对我们含触觉数据集的认可。

这些团队中,有些已经构建了自己的模型,现在正在引入触觉信息。通过在科研、制造等实际场景下进行采集,他们帮助我们收集到了高度真实、以实际场景为驱动的数据。反过来,我们的合作伙伴也将这些数据用于他们的模型训练。此外,为了推动具身行业的发展,我们开源了 10000 小时数据,行业中的任何人都可以使用。

02

从 VLA 到 VTLA:

为什么触觉感知将改变格局

IEEE Spectrum:目前机器人领域的主流范式是视觉-语言-动作(VLA)模型,但戴盟团队提出了视觉-触觉-语言-动作(VTLA)模型。为什么需要引入触觉?它能使机器人实现哪些功能?如果没有触觉反馈,哪些任务可能会失败?

王煜:多年来,我们致力于研发能够执行操作任务(尤其是灵巧操作)的通用机器人——它们不仅能完成抓取或握持,还能通过施加力以实现对物体的操作。如今,这些机器人已被应用于家庭和工业装配领域。

触觉信息对于提供接触状态的反馈至关重要,它能引导机器人的手指及手部进行可靠的操作。如果没有触觉,机器人可能无法在黑暗环境中判断物体的位置,可能因为无法感知滑移状态而导致玻璃杯掉落,更有可能因为无法控制力度而导致操作任务失败,甚至造成损害。VLA 架构已经不足以满足机器人操作的需求,因此我们扩展架构、纳入触觉数据,创建了 VTLA 框架。

我们采用的是视触觉感知技术,它将指尖表面的形变转化为视觉图像,从中推断出力和其他接触状态。这与 VLA 所基于的视觉框架非常契合——将触觉信息转化为图像数据,天然适合集成到 VLA 中,从而转化为 VTLA 框架。这是关键优势:视触觉传感器能够提供高分辨率触觉数据,这些数据可以被整合到框架中,无论是端到端模型还是其他类型的架构。

打开网易新闻 查看精彩图片

搭载了戴盟视触觉传感器的夹爪精确夹捏鸡蛋壳

03

术:单色光视触觉传感技术

IEEE Spectrum:您和戴盟团队多年来一直致力于视触觉传感技术的研究,并开发了世界上首个单色光视触觉感知技术。您为什么选择了这条技术路线?

王煜:从开始研究触觉传感器时,我们就明确了自身的需求:我们想要的是能够高度模拟人类指尖皮肤触觉的传感器。生理学研究已经充分证实了人类指尖所具备的能力——知道我们触摸了什么、是什么材质、力如何分布,以及当大脑控制手时,它是否移动到了正确的位置。我们知道,在机器人手的指尖上复制这些能力将大有裨益。

在调研现有技术时,我们发现了多种类型的触觉感知技术,包括三色光视觉触觉传感及其他更简单的设计。我们将这些技术的优势整合到一个解决方案中,使其在保持良好性能的同时又不会过于复杂,并将成本、可靠性和灵敏度控制在令人满意的范围内,最终研发了单色光视触觉技术。这本质上是一种工程方法,而非纯粹的科学方法,因为大量的基础研究已经存在。随着人们对触觉认知的日益加深,这些技术将携手并进。

打开网易新闻 查看精彩图片

戴盟视触觉传感器装载了11万个感知单元

IEEE Spectrum:去年,戴盟推出了一款多维高分辨率高频率的视触觉传感器。与传统触觉传感器相比,它的核心优势在哪里?它有可能变革哪些行业?

王煜:我们传感器的关键特性在于高密度捕捉接触力与接触形变,我们拥有最高的感知单元密度,这是一个非常重要的指标。另一个指标是频率和带宽,即我们检测触觉变化、传输信号并实时处理信号的速度。其他方面则主要与工程技术相关,例如可靠性、漂移、硅胶表面的耐用性及对磁场、光学及其他环境因素的抗干扰能力。

越来越多人意识到触觉的重要性,并开始使用我们的传感器。今年第一季度我们的营收已经超过了去年一整年,我相信这会让整个行业都迈上一个新的台阶。我们的一位潜在客户正在便利店中部署人形机器人,便利店货架密密麻麻,机器人需要伸入非常狭小的空间——比书架上的书缝还要狭窄,才能取出物品。观察人类如何完成这类任务,你会发现,至少需要三根纤细的手指来触碰并稳稳地抓取物品。我们开始看到一些非常具体的需求,触觉感知的功能在这些场景中至关重要

打开网易新闻 查看精彩图片

全模态触觉信息,包含力/力矩、形状、材质、接触信息四大维度

04

从学术研究到创业公司

IEEE Spectrum:您在学术界耕耘 40 年,创立了香港科技大学机器人研究所,荣获包括 IEEE Fellow 在内的诸多殊荣,并担任 IEEE TASE 主编。是什么促使您创立了戴盟机器人?

王煜:回望过去,我走了很长的一段路。我在卡内基梅隆大学攻读博士学位期间开始学习机器人学。当时,在波士顿动力公司创始人马克·雷伯特(Marc Raibert)的指导下,一些团队研究机器人运动;而在我的导师、该领域领军人物马特·梅森(Matt Mason)的指导下,一些团队则专注研究机器人操作。多年来,不仅在卡内基梅隆大学,我们在全球范围内都致力于灵巧操作的研究。

然而,机器人发展长期受限,尤其是在制造和使用灵巧手方面。直到最近,机器人运动才真正开始腾飞,而机器人手的重大突破也是近几年才实现的。显然,机器人的操作能力还有很大的提升空间,我们希望有朝一日机器人能够像人类一样工作。在香港科技大学工作期间,我看到越来越多研究人员投身于这一领域,我们也决定利用现有资本与人才资源,迅速启动我们的研究工作。

幸运的是,我的博士后段江哗具有敏锐的商业嗅觉。我们看到了机器人市场的发展,也看到了我们视触觉技术所能带来的独一无二的价值,因此在几年前共同创办了戴盟机器人。如今,公司发展良好,市场份额在中国、日本、韩国、美国及欧洲都有显著增长。

05

商业模式和策略

IEEE Spectrum:戴盟目前的商业模式和战略重点是什么?数据集发布在商业战略中扮演什么角色?

王煜:我们最初专注于制造高性能的触觉感知设备,尤其是搭载于机器人手的传感器。但随着技术和业务的发展,大家逐渐意识到,行业需要不仅仅是一个组件,而是整个技术链:设备、高质量大规模的数据,以及最终能够在实际应用环境中构建、训练和部署机器人模型的框架。

现在,我们将自己的商业战略定位为“3D”:设备(Devices)、数据(Data)和部署(Deployment)。我们研发用于数据采集和构建触觉生态的设备,并通过在合作伙伴的应用场景里进行部署,完成含触觉数据的落地与闭环验证。任何一部分,在我们的 3D 商业模式中都不可或缺。具身领域的大多数初创公司都在遵循类似的路径,最终一些公司可能会专注于更加细分的赛道,或与其他公司整合得更紧密。总体来说,垂直整合才是目前的主流。

06

具身技能与融合时刻

IEEE Spectrum:您之前提出了“具身技能”的概念,认为这是人形机器人超越仅拥有先进人工智能“大脑”的关键。是什么促使您提出这一观点?具身技能可以带来哪些新的能力?过去两年模型和硬件快速发展,现在您对具身技能的定义是否有所改变?

王煜:机器人的发展一路走来,如今已到了电气、电子和机电一体化硬件技术融合的阶段,这是过去二十年里取得的巨大进步。由于硬件的快速发展,机器人现在完全是电动的,不再需要液压系统。现代电子技术提供了高带宽和高扭矩,如果我们能将智能融入这些系统,就能创造出真正意义上的人形机器人——能够在非结构化环境中运行、决策并自主执行操作的机器人

人工智能的出现恰逢其时。大量资源被投入到人工智能的开发中,特别是大型语言模型。它们如今已被推广到世界模型中,赋能物理智能——我们希望这些能力最终能在现实世界中落地。

虽然人工智能和核心硬件技术仍在不断发展,但如今的研究重点更加明确。例如在家庭环境中,人们更倾向于使用人形机器人。这是一个令人兴奋的领域——如果我们最终能够制造出安全、可靠且经济高效的机器人,它将为社会带来巨大的益处

07

通往实际部署之路

IEEE Spectrum:如今,许多机器人都能进行令人印象深刻的演示,但距离真正进入实际应用领域仍存在差距。什么因素可能触发实际部署?哪些场景最有可能率先实现大规模部署?

王煜:我认为通用机器人的大规模部署之路仍然漫长,但我们已经看到其在特定领域展现出可行性。这与自动驾驶汽车非常相似,我们尚未看到无人驾驶出租车的全面部署,但已经开始看到移动机器人在酒店业得到了广泛应用。在中国,几乎所有大型酒店都配备了送餐机器人——没有机械臂,只是一台从酒店大堂取货(例如外卖)的小型机器人。送餐员只需放置食物并选择房间号,机器人便会自行导航、自行使用电梯,最终将食物送达客房。

酒店及餐厅的机器人,为其他场景的应用提供了范本,例如夜间药店和便利店。我预计在短期内,这些场所将全面部署人形机器人,并在之后扩展到其他领域。我们可以期待,在未来,包括人形机器人在内的自主机器人将逐步渗透到特定行业,为行业创造价值。

我们的愿景始终是让机器人实现强大的操作能力,并发展成为人类可靠的合作伙伴。未来,机器人或许会无缝融入我们的日常生活,真正造福并服务于人类。

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。F