打开网易新闻 查看精彩图片

来源:机器触觉前沿

打开网易新闻 查看精彩图片

图1 Nature Sensors封面图,SuperTac在封面上展示(右下角)

全文速览

随着机器人技术从“预设程序执行”向“具身智能交互”发展,机器人与环境的物理交互能力成为制约其自主性与适应性的关键瓶颈。触觉感知作为机器人理解物体属性、实现精细操作、保障人机安全的核心传感方式,其重要性日益凸显。然而,当前机器人的触觉系统在感知维度、分辨率和信号理解能力上仍远逊于人类,难以支撑复杂、动态的真实场景任务。

近日,清华大学深圳国际研究生院丁文伯团队联合多所研究机构,从鸽子卓越的多光谱视觉与非成像感知机制中汲取灵感,提出一种仿生多模态触觉传感器(SuperTac),将多光谱成像摩擦电传感惯性测量融为一体,并通过构建触觉语言模型(DOVE)实现触觉信号的理解与推理,旨在推动机器人触觉感知向“人类水平”迈进,为智能制造、医疗辅助与服务机器人等领域提供新一代触觉解决方案。相关成果发表在Nature Sensors第一期上,也是国内机构首次以第一单位发表在该期刊上的文章。

文章题目:

Biomimetic multimodal tactile sensing enables human-like robotic perception

DOI:10.1038/s44460-025-00006-y

01

研究背景

在触觉传感技术领域,现有主流方案主要包括电子皮肤与视触觉传感器两类,但均存在显著不足:

  1. 电子皮肤传感器虽能通过多功能材料实现多模态感知,但提升空间分辨率需依赖密集电极阵列,易导致信号串扰、系统复杂、稳定性下降,难以兼顾高分辨率与多模态融合;

  2. 视触觉传感器通过光学成像实现亚毫米级分辨率,易于与计算机视觉模型结合,但其感知谱段通常局限于可见光,缺乏对温度、材质、接近感等非成像模态的融合能力,限制了其在多物理场环境中的全面感知;

  3. 当前触觉系统普遍面临触觉信号解读能力薄弱的问题,缺乏能够融合多模态触觉信息并进行语义推理的智能模型,导致机器人“有感无知”,难以实现类人的触觉认知与交互决策。

02

研究贡献

本研究构建的多模态触觉传感系统包含三大核心组件:仿生多模态触觉传感器(SuperTac)、数据处理与特征提取模块、以及触觉语言模型理解推理层(DOVE)。系统架构采用分层设计,实现了从物理信号采集到语义理解的全流程闭环处理。系统的具体工作流程如下:

  • 物理信号感知层:SuperTac通过多层感知皮肤同步采集多光谱视觉、摩擦电和惯性测量信号;

  • 数据融合处理层:基于深度学习网络对原始信号进行特征提取和模态融合;

  • 语义理解推理层:DOVE模型将多模态特征映射到语义空间,实现触觉信息的自然语言描述与推理;

  • 应用交互层:集成至机器人系统,支持抓取、识别、人机交互等实际任务这一架构的核心创新在于实现了物理传感-特征提取-语义理解的端到端一体化设计,将传统分离的传感与解读过程有机融合,为机器人提供了类人的触觉感知与认知能力。

03

生物灵感来源

受到鸽子卓越视觉系统的启发,本工作的设计借鉴了其视网膜中多类型视锥细胞的分工机制,特别是紫外敏感细胞,以拓展传感器的光谱感知范围。同时,模拟了鸽子视网膜中用于磁场感知的特殊分子机制,将非成像感知能力迁移至触觉传感领域,从而突破传统视觉传感的局限。

效仿生物神经系统对多感官信息并行处理与协同融合的原理,构建了多模态传感物理系统:通过紫外波段实现标记点追踪与滑动识别;可见光波段用于颜色与环境视觉感知;近红外波段专攻纹理与接触力分布检测;中红外波段负责温度场测量。

结合基于PEDOT:PSS透明导电层设计的摩擦电传感模块,通过接触静电荷差异识别材质并实现接近感知;集成MPU6050惯性测量单元实时采集三维姿态与加速度数据,支持碰撞检测与振动分析;最终通过气压可调的硅胶充气支撑结构构成自适应感知皮肤,动态调节0-7N力感知范围,实现对复杂曲面的高保真轮廓重建。

打开网易新闻 查看精彩图片

图2 生物启发原理及其应用场景

04

设计与测试

·感知皮肤设计

感知皮肤采用总厚度仅1mm的四层薄膜堆叠结构:导电层由PEDOT:PSS/TPU复合薄膜构成,通过涡旋线电极设计实现均匀信号分布,兼具高透明度与良好导电性;荧光层采用紫外荧光油墨,可在紫外光下显影、近红外下透明,实现工作模式切换与标记追踪;反射层为银粉/硅胶复合材料,具备单向镜效应,能通过光强控制实现不同波段的透明/不透明切换;支撑层采用气压可调的硅胶充气薄膜,不仅提供机械支撑,更具备优于传统亚克力的中红外透过性。

基于反射层的光控透明特性,系统实现智能工作模式切换:触觉模式下内部光源开启,薄膜呈不透明状态,实现表面纹理和力的精确检测;视觉模式下内部光源关闭,薄膜转为透明状态,允许外部环境光的直接观测,形成独特的光场调制机制

图3  内部结构及功能表征
打开网易新闻 查看精彩图片
图3 内部结构及功能表征

· 数据处理与特征提取算法

在数据处理与特征提取算法中,力与位置感知采用基于U-Net的编码器-解码器架构,以ResNet-48作为编码器,输入128×128 RGB变形图像并输出三维力分布图与位置坐标;经过86,440组涵盖48种探针形态的接触数据训练,系统达到位置检测均方误差0.056mm、力检测均方误差0.0004N的精度。针对多模态分类任务,算法采用专门化网络设计:纹理识别(ResNet-18 + MLP,NIR图像,98%准确率)、材质分类(信号处理+MLP,摩擦电信号,95%准确率)、颜色识别(ResNet-18 + MLP,RGB图像,100%准确率)、滑动检测(LSTM网络,紫外标记序列,97%准确率)及碰撞检测(LSTM网络,IMU时序信号,94%准确率)。在三维重建与轮廓感知方面,基于紫外荧光标记的位移分析算法实现变形重建,平均均方根误差0.0892、平均绝对误差0.0375,轮廓保真度可识别0.07mm细发并实现100%盲文字符识别准确率。

· 触觉语言模型设计与实现

DOVE触觉语言模型采用基于预训练视觉-语言模型的架构,总参数量达8.6B。模型通过投影层实现触觉特征到语义空间的嵌入对齐,能够融合触觉、温度、颜色和材质等多模态信息进行联合推理。

训练过程采用三阶段策略:第一阶段使用CLIP模型提取图像特征并附加MLP分类器进行编码器预训练;第二阶段移除分类器并添加投影层,实现多模态特征表示的嵌入对齐;第三阶段采用LoRA方法对投影层和语言网络(Vicuna)进行高效微调。数据集构建方面,系统采集了6种颜色、3种温度、10种材质和6种纹理的完整组合物理数据,同时基于GPT-4和规则脚本生成了30,000组触觉语言问答对,并构建了包含1,000个新样本的独立评估集用于模型性能验证。

图4  触觉感知模型及应用实验
打开网易新闻 查看精彩图片
图4 触觉感知模型及应用实验

·性能评估及实验

系统性能通过多层次实验体系进行全面验证:在基础传感性能测试中,对力、位置、温度、振动等物理量进行精度标定;通过分类任务评估验证纹理、材质、颜色等属性的识别准确率;开展80,000次接触循环的耐久性测试,分析长期使用下的信号稳定性;在实际应用验证阶段,于机器人抓取、物体识别、人机交互等真实场景中测试系统可靠性;同时进行对比实验,与传统GelSight等传感器在轮廓感知、纹理识别等关键性能指标上进行系统化比较。

05

总结与未来展望

本研究为机器人触觉感知开辟了多个富有前景的发展方向。在硬件层面,传感器的微型化将推动其在机器人指尖的集成,从而显著提升手内操作的灵巧性。DOVE模型所采用的模态无关框架具有良好的可扩展性,能够适配不同传感器配置与应用场景,为多模态触觉系统提供了通用的软件基础。未来工作将重点研发低功耗解码芯片高集成度封装方案,在进一步减小系统尺寸的同时有效解决散热与稳定性问题。我们还将持续优化DOVE模型在不同传感器设计和专用数据集上的表现,增强其泛化能力与实用性。这些技术发展将逐步弥合机器人与人类在感知能力上的差距,为实现更自然、更高效的人机交互奠定坚实基础。

打开网易新闻 查看精彩图片

图5 装有SuperTac的灵巧手

06

作者信息

论文第一作者为清华大学深圳国际研究生院25届数据科学和信息技术博士毕业生、南洋理工大学博士后李寿杰,清华大学深圳国际研究生院23级数据科学和信息技术博士生吴同和23级人工智能硕士生徐建乐。论文通讯作者包括清华大学深圳国际研究生院副教授丁文伯,大连理工大学教授解兆谦,新加坡国立大学助理教授吴昌盛和香港城市大学教授于欣格。

阅读最新前沿科技趋势报告,请访问欧米伽研究所的“未来知识库”

https://wx.zsxq.com/group/454854145828

打开网易新闻 查看精彩图片

未来知识库是“ 欧米伽 未来研究所”建立的在线知识库平台,收藏的资料范围包括人工智能、脑科学、互联网、超级智能,数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。 欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。