VLA不够了？触觉，将改写具身智能新格局|人工智能|传感器|具身|机器人|视觉|触觉|超级智能

机器之心发布

2026 年，「数据」正成为具身智能竞赛的新焦点，京东、百度等科技巨头纷纷入局。然而，喧嚣之中，一个根本问题悬而未决：什么样的数据，才是具身智能真正需要的？

近日，全球最大的工程与应用科学专业组织 IEEE（电气电子工程师学会）旗下的旗舰出版物 IEEE Spectrum，对机器人学家王煜进行了一次深度专访。

这位深耕机器人领域近 40 年的学者给出了自己的判断：当前主流的 VLA（视觉 - 语言 - 动作）架构不足以支撑机器人真正走向落地，包含物理交互信息的数据，才是机器人理解现实世界、实现稳定操作的关键所在。

访谈链接：https://spectrum.ieee.org/daimon-robotics-physical-ai
原文作者：Sujeet Dutta，Wiley 科学与工程部高级编辑

上世纪80年代，作为中国首批公派留学生，王煜进入卡内基梅隆大学机器人研究所，成为时任所长的 Matt Mason 教授招收的第一位博士生，专攻机器人抓取力学与操作规划——这正是当下具身智能操作能力的学术源头。他曾在多所院校任教，与李泽湘共同创办香港科技大学机器人研究院，培养了大批活跃于今日产业一线的人才。

王煜被斯坦福大学评为全球前 2% 顶尖科学家，并作为 IEEE 机器人与自动化协会管理委员会唯一代表中国机构的学者，持续在国际具身智能领域传递中国声音。

从液压到电动、从工业到生活场景，再到如今的人工智能时代，王煜经历了现代机器人学的每一次范式转换。因此，他对当下狂热中的思考格外值得倾听。

在王煜看来，机器人下一个亟待解锁的能力是「操作」（manipulation），且时机日臻成熟。

如今机器人能完成惊艳的 demo，却仍难以在真实环境中自主感知、决策并稳定执行操作，根本原因在于对视觉的过度依赖—— 当机器人尝试拿起一只玻璃杯、采摘一颗草莓、插拔一根电线时，视觉只能告诉它「物体在哪儿」，却无法告知它力度是否恰当、角度是否到位、操作是否完成。

材质、摩擦、接触力、形变，这些决定操作成败的物理反馈信息，恰恰是视觉的盲区，也是机器人操作中长期缺失的一环。

王煜认为，触觉是打开这扇大门的钥匙。触觉包含了接触力、接触状态、形变、纹理与材质等信息，能够填补视觉的盲区与错觉，让机器人从「识别物体」走向「理解物体、操控物体」。

基于这一判断，他与团队提出了 VTLA（视觉 - 触觉 - 语言 - 动作）框架，在主流 VLA 架构中引入触觉，将其视作与视觉同等重要的感知模态。

王煜教授

这些主张并未停留在论文里。几年前，王煜与博士后段江哗共同创立「戴盟机器人」，将多年积累的触觉感知研究推向工程化落地。这家公司过去以含触觉感知的硬件研发为闻名，2026 年第一季度的营收已超过去年全年。

上个月，戴盟正式发布含触觉模态的物理世界具身数据集 Daimon Infinity，并开源其中 10000 小时数据，正式入场眼下最热的具身数据赛道。

一位以「操作」为研究命题的学者，为何在此刻选择加入数据之争？这背后的判断，或许能让我们窥见未来几年的具身智能走向。

在这次专访中，王煜系统阐释了他对机器人操作、触觉感知、具身数据与物理 AI 的思考：为什么 VLA 架构会遭遇瓶颈？触觉数据为何被长期忽视，又为何不可或缺？所谓「物理智能」究竟意味着什么？作为一位见证了机器人学半个世纪发展的研究者，他如何看待人形机器人未来的可能性与边界？

以下为 IEEE Spectrum 专访王煜的译文，出于篇幅考虑略有删减：

提问：今年 4 月，戴盟机器人联合多家头部学术机构和企业，共同发布规模最大、最全面的具身操作数据集。为何选择现在发布数据集，而不是继续专注硬件开发？

王煜：随着具身智能的发展，越来越多人意识到数据的重要性：数据不足是目前具身智能发展的瓶颈，尤其是包含物理交互信息的数据，这将是提升机器人在现实世界操作能力的关键。

数据的质量、可靠性和成本，已成为研发和商业落地需要重点关注的问题。

这恰好也是戴盟擅长的事。依托领先的视触觉技术，我们能够提供含多模态触觉的高质量数据 ——不仅包含接触力，还有接触形变、接触状态、滑移摩擦、物体材质与纹理等信息，完整还原物理交互的过程。基于过往的技术积累，我们也研发了数据处理管线，将触觉与视觉、动作轨迹、语音文本等模态精准融合，转化为模型训练可用的数据。

面对行业的数据空缺，我想采集数据是我们戴盟能做好、也应该做的事情。

今年 4 月，戴盟发布含触觉全模态物理世界数据集 Daimon-Infinity

提问：戴盟声称数据集年底能达到超百万小时规模，你们是如何做到这一点的？

王煜：我们打造了全球最大规模的外发式具身数据采集网络—— 依托于轻便化设备，数据采集不再局限于数采场，而是可以进入各类真实场景，不受空间限制，实现了低成本、跨场景、高度真实性的采集，从而具备了每年数百万小时数据的生产能力。

提问：Daimon-Infinity 由多家机构联合发布，他们如何参与其中？

王煜：此次数据集，我们联合了全球数十家机构合作共建，包括北京大学、清华大学、香港科技大学等中国高校，以及 DeepMind、美国西北大学、新加坡国立大学等全球顶尖研究团队，另外还有中国移动、汇川技术、上声电子等产业方。他们选择与戴盟合作，是对我们将触觉加入具身数据这一路线的认可。

通过在科研、制造等实际场景下进行采集，这些合作方帮助我们收集到了高度真实、以实际场景为驱动的数据；反过来，他们将这些数据用于自己的模型训练。此外，我们开源了 10000 小时数据，希望含触觉的数据能推动更多具身模型的进化。

提问：目前机器人领域的主流范式是 VLA 模型，但戴盟团队提出了 VTLA 框架。为什么加入了触觉？

王煜：触觉信息对于机器人的操作能力至关重要，它能提供与物体接触时的物理反馈，引导机器人手进行可靠的操作。如果没有触觉，机器人可能无法在黑暗环境中判断物体的位置，可能因无法感知滑移状态而导致玻璃杯掉落，更有可能因为无法控制力度而导致操作任务失败，甚至造成损害。

VLA 已经不足以满足机器人操作的需求，因此我们扩展了框架，纳入触觉数据，创建了 VTLA。

重要的是，我们采用的视触觉感知技术，与 VLA 所基于的视觉框架非常契合。它捕捉指尖表面的形变，将触觉信息转化为视觉图像，并从中推断出力和其他接触状态 —— 而图像数据天然适合集成到 VLA 中，这降低了框架扩展的门槛。

搭载视触觉传感器的夹爪，通过精准感知触觉，赋能精细操作

提问：您和团队开发了世界上首个单色光视触觉技术，为什么选择了这条技术路线？

王煜：从开始研究触觉感知时，我们就明确了自身需求：我们想要的是能够高度模拟人类指尖皮肤触觉的传感器。

生理学研究已充分证实人类指尖所具备的能力 —— 知道我们触摸了什么、是什么材质、力如何分布，以及当大脑控制手时，它是否移动到正确的位置。我们知道，在机器人手上复制这些能力将大有裨益。

在调研现有技术时，我们发现了多种类型的触觉感知技术，包括三色光视触觉传感及其他更简单的设计。我们将这些技术的优势整合到一个解决方案中，使其在保持良好性能的同时又不会过于复杂，并将成本、可靠性和灵敏度控制在令人满意的范围内，最终研发了单色光视触觉技术。随着人们对触觉认知的日益加深，这些技术将携手并进。

全模态触觉信息，包含力 / 力矩、形状、材质、接触信息四大维度

提问：你们的视触觉传感器正是基于这一技术，相比传统触觉传感器有什么核心优势？

王煜：我们在去年推出了全球首个多维高分辨率高频率视触觉传感器，在指尖大小的模块上装载了 11 万个感知单元，是业内目前最高的密度。

另一个优势是频率和带宽，即我们检测触觉变化、传输并实时处理信号的速度。其他方面则主要与工程技术相关，如可靠性、漂移、硅胶表面耐用性及对电磁、光学及其他环境因素的抗干扰能力。

触觉的重要性正被越来越多人意识到，我们的视触觉传感器也得到了更多人的使用，我相信这会让整个行业都迈上一个新台阶。

我们的一位潜在客户正在便利店中部署人形机器人，在密密麻麻的货架上，机器人需要伸入非常狭小的空间才能取出物品 —— 人类至少需要三根纤细的手指才能完成抓取任务。诸如此类的场景，我们看到了对于触觉的非常具体的需求。

戴盟视触觉传感器具有高感知单元密度

提问：戴盟目前的商业模式和战略重点是什么？数据集在其中是什么角色？

王煜：我们最初专注于制造高性能的触觉感知设备，尤其是搭载于机器人手的传感器。但随着具身智能的发展，大家逐渐意识到，行业需要不仅仅是一个组件，而是整个技术链：设备、大规模高质量的数据，以及最终能够在实际应用环境中构建、训练和部署机器人模型的框架。

现在，我们将自己的商业战略定位为「3D」：设备（Devices）、数据（Data）和部署（Deployment）。我们研发用于数据采集和构建触觉生态的设备，并通过在合作伙伴的应用场景里部署，完成含触觉数据的落地与闭环验证。在这个模式里，任何一环都不可或缺。

提问：您之前提出了「具身技能」的概念，认为这是人形机器人超越「仅拥有先进人工智能大脑」的关键。您为什么会提出这一观点？过去两年行业快速发展，您对具身技能的定义是否有所改变？

王煜：机器人的发展一路走来，如今已到了电气、电子和机电一体化硬件技术融合的阶段，这是过去 20 年里取得的巨大进步。由于硬件的快速发展，机器人现在完全是电动的，不再需要液压系统。现代电子技术提供了高带宽和高扭矩，如果我们能将智能融入这些机械系统，就能创造出真正意义上的人形机器人 —— 能够在非结构化环境中运行、决策并自主稳定地执行操作的机器人。

人工智能的出现恰逢其时，大量资源投入其中，特别是大语言模型。它们如今被推广到世界模型中，赋能物理智能（physical AI）—— 我们希望这些能力最终能在现实世界中落地。如今研究重点更加明确，例如在家庭环境中，人们更倾向于使用人形机器人。这是一个令人兴奋的领域，如果我们最终能够制造出安全、可靠且经济高效的机器人，它将为社会带来巨大的益处。