打开网易新闻 查看精彩图片

机器之心发布

2026 年,「数据」正成为具身智能竞赛的新焦点,京东、百度等科技巨头纷纷入局。然而,喧嚣之中,一个根本问题悬而未决:什么样的数据,才是具身智能真正需要的?

近日,全球最大的工程与应用科学专业组织 IEEE(电气电子工程师学会)旗下的旗舰出版物 IEEE Spectrum,对机器人学家王煜进行了一次深度专访。

这位深耕机器人领域近 40 年的学者给出了自己的判断:当前主流的 VLA(视觉 - 语言 - 动作)架构不足以支撑机器人真正走向落地,包含物理交互信息的数据,才是机器人理解现实世界、实现稳定操作的关键所在。

打开网易新闻 查看精彩图片

  • 访谈链接:https://spectrum.ieee.org/daimon-robotics-physical-ai
  • 原文作者:Sujeet Dutta,Wiley 科学与工程部高级编辑

上世纪80年代,作为中国首批公派留学生,王煜进入卡内基梅隆大学机器人研究所,成为时任所长的 Matt Mason 教授招收的第一位博士生,专攻机器人抓取力学与操作规划——这正是当下具身智能操作能力的学术源头。他曾在多所院校任教,与李泽湘共同创办香港科技大学机器人研究院,培养了大批活跃于今日产业一线的人才。

王煜被斯坦福大学评为全球前 2% 顶尖科学家,并作为 IEEE 机器人与自动化协会管理委员会唯一代表中国机构的学者,持续在国际具身智能领域传递中国声音。

从液压到电动、从工业到生活场景,再到如今的人工智能时代,王煜经历了现代机器人学的每一次范式转换。因此,他对当下狂热中的思考格外值得倾听。

在王煜看来,机器人下一个亟待解锁的能力是「操作」(manipulation),且时机日臻成熟。

如今机器人能完成惊艳的 demo,却仍难以在真实环境中自主感知、决策并稳定执行操作,根本原因在于视觉的过度依赖—— 当机器人尝试拿起一只玻璃杯、采摘一颗草莓、插拔一根电线时,视觉只能告诉它「物体在哪儿」,却无法告知它力度是否恰当、角度是否到位、操作是否完成。

材质、摩擦、接触力、形变,这些决定操作成败的物理反馈信息,恰恰是视觉的盲区,也是机器人操作中长期缺失的一环。

王煜认为,触觉是打开这扇大门的钥匙。触觉包含了接触力、接触状态、形变、纹理与材质等信息,能够填补视觉的盲区与错觉,让机器人从「识别物体」走向「理解物体、操控物体」。

基于这一判断,他与团队提出了 VTLA(视觉 - 触觉 - 语言 - 动作)框架,在主流 VLA 架构中引入触觉,将其视作与视觉同等重要的感知模态。

打开网易新闻 查看精彩图片

王煜教授

这些主张并未停留在论文里。几年前,王煜与博士后段江哗共同创立「戴盟机器人」,将多年积累的触觉感知研究推向工程化落地。这家公司过去以含触觉感知的硬件研发为闻名,2026 年第一季度的营收已超过去年全年。

上个月,戴盟正式发布含触觉模态的物理世界具身数据集 Daimon Infinity,并开源其中 10000 小时数据,正式入场眼下最热的具身数据赛道。

一位以「操作」为研究命题的学者,为何在此刻选择加入数据之争?这背后的判断,或许能让我们窥见未来几年的具身智能走向。

在这次专访中,王煜系统阐释了他对机器人操作、触觉感知、具身数据与物理 AI 的思考:为什么 VLA 架构会遭遇瓶颈?触觉数据为何被长期忽视,又为何不可或缺?所谓「物理智能」究竟意味着什么?作为一位见证了机器人学半个世纪发展的研究者,他如何看待人形机器人未来的可能性与边界?

以下为 IEEE Spectrum 专访王煜的译文,出于篇幅考虑略有删减:

提问:今年 4 月,戴盟机器人联合多家头部学术机构和企业,共同发布规模最大、最全面的具身操作数据集。为何选择现在发布数据集,而不是继续专注硬件开发?

王煜:随着具身智能的发展,越来越多人意识到数据的重要性:数据不足是目前具身智能发展的瓶颈,尤其是包含物理交互信息的数据,这将是提升机器人在现实世界操作能力的关键。

数据的质量、可靠性和成本,已成为研发和商业落地需要重点关注的问题。

这恰好也是戴盟擅长的事。依托领先的视触觉技术,我们能够提供含多模态触觉的高质量数据 ——不仅包含接触力,还有接触形变、接触状态、滑移摩擦、物体材质与纹理等信息,完整还原物理交互的过程。基于过往的技术积累,我们也研发了数据处理管线,将触觉与视觉、动作轨迹、语音文本等模态精准融合,转化为模型训练可用的数据。

面对行业的数据空缺,我想采集数据是我们戴盟能做好、也应该做的事情。

打开网易新闻 查看精彩图片

今年 4 月,戴盟发布含触觉全模态物理世界数据集 Daimon-Infinity

提问:戴盟声称数据集年底能达到超百万小时规模,你们是如何做到这一点的?

王煜:我们打造了全球最大规模的外发式具身数据采集网络—— 依托于轻便化设备,数据采集不再局限于数采场,而是可以进入各类真实场景,不受空间限制,实现了低成本、跨场景、高度真实性的采集,从而具备了每年数百万小时数据的生产能力。

提问:Daimon-Infinity 由多家机构联合发布,他们如何参与其中?

王煜:此次数据集,我们联合了全球数十家机构合作共建,包括北京大学、清华大学、香港科技大学等中国高校,以及 DeepMind、美国西北大学、新加坡国立大学等全球顶尖研究团队,另外还有中国移动、汇川技术、上声电子等产业方。他们选择与戴盟合作,是对我们将触觉加入具身数据这一路线的认可。

通过在科研、制造等实际场景下进行采集,这些合作方帮助我们收集到了高度真实、以实际场景为驱动的数据;反过来,他们将这些数据用于自己的模型训练。此外,我们开源了 10000 小时数据,希望含触觉的数据能推动更多具身模型的进化。

提问:目前机器人领域的主流范式是 VLA 模型,但戴盟团队提出了 VTLA 框架。为什么加入了触觉?

王煜:触觉信息对于机器人的操作能力至关重要,它能提供与物体接触时的物理反馈, 引导机器人手进行可靠的操作。如果没有触觉,机器人可能无法在黑暗环境中判断物体的位置,可能因无法感知滑移状态而导致玻璃杯掉落,更有可能因为无法控制力度而导致操作任务失败,甚至造成损害。

VLA 已经不足以满足机器人操作的需求,因此我们扩展了框架,纳入触觉数据,创建了 VTLA。

重要的是,我们采用的视触觉感知技术,与 VLA 所基于的视觉框架非常契合。它捕捉指尖表面的形变,将触觉信息转化为视觉图像,并从中推断出力和其他接触状态 —— 而图像数据天然适合集成到 VLA 中,这降低了框架扩展的门槛。

打开网易新闻 查看精彩图片

搭载视触觉传感器的夹爪,通过精准感知触觉,赋能精细操作

提问:您和团队开发了世界上首个单色光视触觉技术,为什么选择了这条技术路线?

王煜:从开始研究触觉感知时,我们就明确了自身需求:我们想要的是能够高度模拟人类指尖皮肤触觉的传感器

生理学研究已充分证实人类指尖所具备的能力 —— 知道我们触摸了什么、是什么材质、力如何分布,以及当大脑控制手时,它是否移动到正确的位置。我们知道,在机器人手上复制这些能力将大有裨益。

在调研现有技术时,我们发现了多种类型的触觉感知技术,包括三色光视触觉传感及其他更简单的设计。我们将这些技术的优势整合到一个解决方案中,使其在保持良好性能的同时又不会过于复杂,并将成本、可靠性和灵敏度控制在令人满意的范围内,最终研发了单色光视触觉技术。随着人们对触觉认知的日益加深,这些技术将携手并进。

打开网易新闻 查看精彩图片

全模态触觉信息,包含力 / 力矩、形状、材质、接触信息四大维度

提问:你们的视触觉传感器正是基于这一技术,相比传统触觉传感器有什么核心优势?

王煜:我们在去年推出了全球首个多维高分辨率高频率视触觉传感器,在指尖大小的模块上装载了 11 万个感知单元,是业内目前最高的密度。

另一个优势是频率和带宽,即我们检测触觉变化、传输并实时处理信号的速度。其他方面则主要与工程技术相关,如可靠性、漂移、硅胶表面耐用性及对电磁、光学及其他环境因素的抗干扰能力。

触觉的重要性正被越来越多人意识到,我们的视触觉传感器也得到了更多人的使用,我相信这会让整个行业都迈上一个新台阶。

我们的一位潜在客户正在便利店中部署人形机器人,在密密麻麻的货架上,机器人需要伸入非常狭小的空间才能取出物品 —— 人类至少需要三根纤细的手指才能完成抓取任务。诸如此类的场景,我们看到了对于触觉的非常具体的需求。

打开网易新闻 查看精彩图片

戴盟视触觉传感器具有高感知单元密度

提问:戴盟目前的商业模式和战略重点是什么?数据集在其中是什么角色?

王煜:我们最初专注于制造高性能的触觉感知设备,尤其是搭载于机器人手的传感器。但随着具身智能的发展,大家逐渐意识到,行业需要不仅仅是一个组件,而是整个技术链:设备、大规模高质量的数据,以及最终能够在实际应用环境中构建、训练和部署机器人模型的框架。

现在,我们将自己的商业战略定位为「3D」:设备(Devices)、数据(Data)和部署(Deployment)。我们研发用于数据采集和构建触觉生态的设备,并通过在合作伙伴的应用场景里部署,完成含触觉数据的落地与闭环验证。在这个模式里,任何一环都不可或缺。

提问:您之前提出了「具身技能」的概念,认为这是人形机器人超越「仅拥有先进人工智能大脑」的关键。您为什么会提出这一观点?过去两年行业快速发展,您对具身技能的定义是否有所改变?

王煜:机器人的发展一路走来,如今已到了电气、电子和机电一体化硬件技术融合的阶段,这是过去 20 年里取得的巨大进步。由于硬件的快速发展,机器人现在完全是电动的,不再需要液压系统。现代电子技术提供了高带宽和高扭矩,如果我们能将智能融入这些机械系统,就能创造出真正意义上的人形机器人 —— 能够在非结构化环境中运行、决策并自主稳定地执行操作的机器人。

人工智能的出现恰逢其时,大量资源投入其中,特别是大语言模型。它们如今被推广到世界模型中,赋能物理智能(physical AI)—— 我们希望这些能力最终能在现实世界中落地。如今研究重点更加明确,例如在家庭环境中,人们更倾向于使用人形机器人。这是一个令人兴奋的领域,如果我们最终能够制造出安全、可靠且经济高效的机器人,它将为社会带来巨大的益处。

打开网易新闻 查看精彩图片

搭载了戴盟触觉感知技术的机器人在工厂线上部署

提问:机器人如今能进行令人印象深刻的 demo,但距离真正进入实际应用仍存在差距。什么因素可能触发实际部署?哪些场景最有可能率先实现大规模部署?

王煜:我认为通用机器人的大规模部署之路仍然漫长,但我们已经看到特定领域的可行性。

这与自动驾驶汽车非常相似,无人驾驶出租车尚未全面部署,但移动机器人在酒店业已经得到广泛应用。在中国,几乎所有大型酒店都配备了送餐机器人 —— 没有机械臂,只是一台从酒店大堂取外卖的小型机器人。外卖员只需放置食物并选择房间号,机器人便会自行导航、自行使用电梯,最终将食物送达客房。

酒店及餐厅的机器人,为其他场景的应用提供了范本,例如夜间药店和便利店。我预计在短期内,这些场所将全面部署人形机器人,并在之后扩展到其他领域。我们可以期待,在未来,包括人形机器人在内的自主机器人将逐步渗透到特定行业,为行业创造价值。

我们的愿景始终是让机器人实现强大的操控能力,并发展成为人类可靠的合作伙伴。未来,机器人或许会无缝融入我们的日常生活,真正造福并服务于人类。