打开网易新闻 查看精彩图片

通过感知他人的行为来模仿运动,是人类的本能。比如,婴儿通过倾听大人的声音来咿呀学语,学徒通过观察师傅的动作来掌握技艺。但这种根植于生物的感知-动作闭环机制,对于机器人而言,却是难以复刻的难题。

近日,南加州大学(USC)的科学家们开发了一只四指机械手,它只需经过 2 分钟的键盘自学练习,听一遍陌生的旋律,就能将其完美演奏出来,完全不依赖乐谱或预设程序的指导。相关论文发表在 Journal of the Royal Society Interface 期刊。

领导这项研究的是 USC 维特比工程学院的弗朗西斯科·瓦莱罗-奎瓦斯 (Francisco Valero-Cuevas) ,他的实验室致力于研究复杂神经肌肉系统(例如人手)的生物力学、神经肌肉控制和临床康复。

图 | 音乐家之手(来源:USC)
打开网易新闻 查看精彩图片
图 | 音乐家之手(来源:USC)

这套被称为“音乐家之手”(Musician Hand)的系统,包括由肌腱驱动的四指机械手,以及一套全新的感知学习算法。

机械手采用轻量化 3D 打印结构,四个手指由微型电机控制的肌腱驱动。手指上安装了弹簧,能像人体肌肉张力一样被动回位,确保动作灵活且富有弹性。指尖还包裹了泡沫材料,模拟人类指腹的柔软触感,对在力度敏感的钢琴键盘上演奏较为重要。其内置的神经网络会分析旋律的声音,并将其转化为重现该旋律所需的运动指令。

图 | 音乐家之手概述(来源:上述论文)

与依赖大量编程和海量训练数据集的传统机器人不同,这款机械手的训练过程类似于婴儿时期的“咿呀学语”。在 2 分钟的时间里,机械手会在琴键上随机乱按。在乱按的过程中,它的内部算法会记录下什么样的按键动作(力度和时间)会产生什么样的声音(频率和强度)。

经过 2 分钟的训练后,再次听到一段全新的旋律时,系统会将这段声音转化为声谱图,并直接调用之前积累的经验,推导出需要哪些手指动作来重现这段旋律,全程不需要任何试错纠正。

为了验证效果,研究团队专门请两位作曲家创作了三首只使用四个相邻琴键(C4、D4、E4、F4)的简单旋律,每首时长约 20-30 秒,节奏统一在每分钟 90 拍。

图 | 三首旋律的乐谱(来源:上述论文)
打开网易新闻 查看精彩图片
图 | 三首旋律的乐谱(来源:上述论文)

团队选择了9 位人类参与者,包括 4 位训练有素的钢琴手(3 位专业演奏者和 1 位业余爱好者,均有钢琴演奏的训练和经验)和 5 位无任何钢琴基础的新手,他们被允许“咿呀学语”5 分钟,然后练习 3 分钟,最后有 1 分钟时间正式演奏。机械手则只经过 2 分钟随机探索,就直接听一遍演奏。研究主要评估了他们在复刻旋律 1(有 37 个音符)上的表现。

结果显示,在音符识别准确率上,机械手达到了 100%,完整复现了三首旋律的所有音符;而新手参与者仅能正确弹出前 2-3 个音符,准确率仅 6%-9%,无法完成完整演奏。专业钢琴演奏者的音符准确率为 92%-100%,一位演奏得完美无缺,其他人在演奏 37 个音符时犯了 1 到 4 个错误。

在力度还原度上,机器人得分 68%,专业演奏者为 78%-100%,略胜一筹;节奏时差方面,机器人控制在 150 毫秒左右,专业演奏者低于 120 毫秒,同样小幅领先。

研究人员还对机械手和 5 位钢琴家弹奏的音乐片段,进行了感知相似性、听觉相似性和节奏相似性的量化。对于所有三个指标,得分为 0 表示无相似性(特征完全不同),0.5 表示中等相似性(有一些共享特征,但在频谱图和短期功率谱上有重大差异),1 表示完全相似(特征相同)。

对于旋律 1,“音乐家之手”在所有三个指标上取得了与四位人类钢琴家相当的相似性得分,两者的得分均在 0.9+ 范围内。

(来源:上述论文)
打开网易新闻 查看精彩图片
(来源:上述论文)

在盲听环节,两位专业作曲家进行盲听打分,不看演奏者、仅听演奏音频,评估它们与原曲在音乐美感上的相似度。最终排名结果为:3 位专业钢琴手位列前三,机械手排名第四,超过一名业余钢琴手,碾压所有新手参与者。

随后,研究人员又让机械手尝试了其他两首音乐(分别有 28 和 24 个音符),在没有额外“咿呀学语”或练习的情况下,它依然完美地弹奏出了所有音符,展现出了强大的泛化能力。

机械手同样准确识别了所有音符,在力度还原上,其在旋律 2 上的分数为 84%,在旋律 3 上为 70%。最后,其平均节奏时差在旋律 2 上为 135 毫秒,在旋律 3 上为 150 毫秒。

图 | 定量结果:音符检测、力度估计、节奏时差(来源:上述论文)
打开网易新闻 查看精彩图片
图 | 定量结果:音符检测、力度估计、节奏时差(来源:上述论文)

这台会听音弹琴的机械手,实际上是研究团队对“感知机器人”理念的一次深度概念验证。在这一全新框架下,机器系统不再依赖于海量数据训练,而是能够主动感知环境、自主试错并完成自我纠正。研究人员相信,这种模式未来将比现有的任务驱动型机器人更能以贴近直觉、极具个性化的方式造福人类。

比如瓦莱罗-奎瓦斯描绘的愿景:对于帕金森病患者而言,现有的辅助技术往往难以跟上患者身体变化的步伐。但在确诊初期穿上机器外骨骼,用几天时间去教它走路的样子,伸手的方式......随着病情的发展,当患者再次穿上它并开启辅助模式时,它就能帮你原汁原味地找回专属于你自己的生活习惯。不需要专门进行繁琐的定制编程,因为它已经懂你了。

此外,这项研究的一作、专注于神经工程研究的赫萨姆·阿扎朱(Hesam Azadjou)也指出了该技术在治疗领域的潜力。未来的康复机器人可以先拜师学习理疗师的专业手法,随后在患者家中充当私人教练,并能够根据每位患者实时的动作和身体反馈,动态调整康复训练计划。

研究人员表示,只要投入足够的时间与资源,同样的系统完全可以用来辅助中风患者的康复、与建筑工人并肩协作,甚至帮助年迈的老人安全、独立地实现居家养老。

1.Hesam Azadjou, Ali Marjaninejad, Francisco J. Valero-Cuevas; Perception in action: a robotic system that can teach itself to melodiously play music by ear. J R Soc Interface 1 May 2026; 23 (238): 20250909. https://doi.org/10.1098/rsif.2025.0909

运营/排版:何晨龙

注:封面/首图由 AI 辅助生成