最近,在某些繁华城市的街头,总能看到一些新奇的画面:机器人身着衣服,与常人无异,行走在街上。它们有着看似人类的举动,但实际上,它们很难理解一些行动背后所带有的目的,尤其是这些动作与交互息息相关。
这就是现代人机协作的根本瓶颈:机器人掌握视觉、感知和操作能力,却缺少真正理解人的方法。针对这种情况,加州大学圣地亚哥分校(University of California San Diego)的一支团队给出了一种全新思路:用可穿戴多模态信号 + AI 推理,实现可靠的现实环境中的手势识别。
相关的研究内容以「A noise-tolerant human–machine interface based on deep learning-enhanced wearable sensors」为题,于 2025 年 11 月 17 日发布在《Nature Sensors》。
论文链接:https://www.nature.com/articles/s44460-025-00001-3
可穿戴设备的增强
可穿戴设备在生活中的许多地方都展现出前所未有的潜力。当前的人机协作方式之所以不够顺畅,其根本原因在于机器人能够接收到的有效信息太少。视觉系统可以看见手的移动,却无法区分动作背后的语义;语音控制对于处理复杂任务几乎无能为力;按钮、界面和远程操控更是与自然动作相距甚远。
更深层的问题在于,机器对人的内部状态完全「不可见」。视觉系统看不到疲劳、看不到微小的肌肉变化、看不到用户即将失稳的趋势,而这些恰恰是影响协作效率和安全的关键因素。信息不足导致误解,误解又进一步降低协作效果。
为了打破这些限制,AI 的加入带来了更广阔的解决思路。相关研究团队的核心思想很简单:用 AI 捕获环境信息与手势信号并推理其中的信息,处理完后再发送给设备。
图 1:抗噪声人机界面概述。
他们所设计的深度学习增强型可穿戴传感器,能够在存在多种真实世界运动伪影的情况下准确识别手势。这包括一个六通道惯性测量单元(IMU)、一个肌电图(EMG)模块、一个蓝牙微控制器单元和一个定制电池,全部安装在织物基板上。
在信号采集层面,可穿戴设备不仅记录动作轨迹,还同步采集肌电、姿态、加速度等生理信息。这些信号是视觉看不到的,却是人类动作意图最直接的映射。
图 2:多通道采集手势信号和运动伪影。
在推理层面,AI 模型成为整个系统的「大脑」。它将这些多模态信号融合,提取出「用户接下来要做什么」「用户此刻的目标是什么」等深层语义。机器人可以根据这些推断,提前规划自己的动作,包括跟随、避让、协助、减速或接管任务。
通过在复合数据训练集上进行三种深度学习网络的比较,与实验后进一步验证模型在未预训练的真实世界中会有怎样的表现,团队所采用的模型在所有条件下的识别准确率均保持高度稳定(>94%),应用基于参数的迁移学习也进一步增强了模型的泛化能力。后者将所有 19 种手势的最小识别准确率从 >51% 提高到 >92%。
图 3:基于深度学习和迁移学习的手势分类。
最终,在执行层面,这套系统让机器人具备了「共享智能」。它可以在用户刚准备发力时就开始提供支撑;在用户逐渐疲劳时主动接管负载。
协作更快、更稳
团队在多种实际任务中测试了该框架,包括协作搬运、精细装配、共同移动负载等,结果一致表明,系统显著提升了协作效率和整体自然度。即使是存在大量伪影的情况下,团队依然实现了相当的手势识别性能:手势与机械臂动作之间的延迟约为 1.3 秒。
当配备在复合数据集上训练的 CNN 时,即使受试人员处在跑动中,机械臂也能够精确执行预期动作。这种稳定也扩展到了试管溶液转移、高频振动、方向变化等组合中。
图 4:抗噪声人机界面的水生应用。
通过大量采集海洋波浪的数据,生成的模拟潜水员在叠加模拟海浪干扰的 IMU 信号上进行测试时,召回率、精确率、特异性和 F1 分数均接近~1。
更广泛的影响
团队意识到,运动干扰并非仅限于水下环境。这是可穿戴技术领域普遍面临的挑战,长期以来限制了此类系统在日常生活中的表现。
即使这项技术仍有更大的优化空间(比如减少延迟与简化的识别任务),但它仍然是一种全新的可穿戴传感器的可靠抗噪方法。它能为下一代可拉伸的无线穿戴设备指引了方向。
热门跟贴