你是否想过,当人类面对面交流时,我们的注意力更多地被放在哪里?
第一直觉或许是眼睛。它们是心灵的窗户,能够传达出细微而生动的情感。科学研究也证实的确如此,在日常对话中,我们会频繁地注视对方的眼睛来捕捉情绪信号。
不过,当环境变得嘈杂时,情况就有所不同了。研究表明,在噪音环境下,人们会将 50%-55% 的注意力转向对话者的嘴唇,倾向于通过唇形来辅助理解对方在说什么。
这也解释了为什么即便是目前最先进的人形机器人,仍然让人在和它们面对面交流时感到不适。我们可以容忍它们笨拙的步态,甚至僵硬的手势,但当一张接近人类的面孔无法自然地活动时,就会生发出一丝诡异感。这就是机器人领域著名的"恐怖谷效应"——越接近人类却又不够完美的机器,反而会引发更强烈的排斥感。
在致力机器人如何跨越“恐怖谷”效应的道路上,首形科技是积极的拓路者之一。这家由哥伦比亚大学博士胡宇航创立的初创公司,自成立起便选择了一条与众不同的技术路径:不追求机器人在运动或操作能力上的极致性能,而是聚焦于赋予它们具有情绪表达能力的面部。过去一年多,这一方向为他们赢得了多轮融资,并且收获了社交媒体和市场的广泛关注。
1 月 15 日,Science Robotics 封面刊发了胡宇航团队关于 Emo 面部机器人的研究,展示了其如何通过学习实现与语音、歌曲同步的唇部运动,这也是 Science Robotics 首次将人脸机器人刊登在封面。这项工作源于他在哥伦比亚大学的博士研究,也是他近两年在 Science 和 Nature 子刊上发表的第三篇论文。
嘴唇运动被低估的复杂性
“嘴唇是人们交互过程中动作最多的部位, 也是机器人从表情自然到交互自然非常重要的门槛。”胡宇航告诉 DeepTech,嘴唇运动的复杂性远超多数人的想象,甚至超出了机器人研究者此前的认知。
从技术角度看,这种复杂性首先体现在驱动机制上。与眉毛等单一方向运动的面部特征不同,嘴唇由多个肌肉群驱动,运动过程中存在频繁的接触与分离。同时,嘴唇对时间精度极为敏感,还需同步承载语言、情感与社交信号。胡宇航指出:“这使得嘴唇运动的建模从根本上超越了参数化控制,成为一个高维、非线性、强闭环的生成式形变问题。”
既然如此,面对如此复杂的任务,如何客观衡量机器人嘴唇运动的“真实性”呢?
胡宇航团队在论文中提出了一种创新方法:使用合成参考视频作为理想同步基准,在 VAE 编码器的潜空间中计算机器人嘴唇运动与参考视频之间的距离。该指标能够刻画整体嘴型动态与时序结构的偏差,避免了依赖易受噪声干扰的二维关键点。由此,研究者获得了一个客观的度量标准,可以在连续语音与多语言场景下评估音频-视觉同步误差。
这可以说是创新的一步。因为此前,机器人领域对嘴唇同步的尝试主要依赖手工预定义的运动规则和固定的音素-视位映射表。简单来说,就是为每个音素设计一套固定嘴型,再让机器人机械执行。
但这种方法存在明显的局限。胡宇航列举了几个关键问题:首先,同一音素的发声速度会因说话人、场景或情绪而异。例如,一个人在激动和平静状态下说出的“好”,虽然音素相同,但嘴唇运动的幅度、速度和形态可能截然不同。其次,在多语言、歌唱或方言等场景中,基于音素设计规则需要投入巨大的手工工作量。更关键的是,当机器人硬件升级时,所有动作几乎都要重新编排,难以复用。
此外,这种规则方法还隐含了一个假设:音素与嘴型之间存在着稳定、一对一的映射关系。但这显然与真实人类发音机制并不相符。实际上,同一音素的嘴唇运动在不同说话人、语速、情绪和语境下都存在显著差异,其时序、幅度和形态高度连续且上下文相关。
将这种连续性强行离散化为固定规则,必然丢失大量信息。规则方法也无法建模嘴唇作为软体器官所具有的非线性、并行驱动和跨时间依赖特性,最终只能生成“正确但僵硬”的嘴型序列。
相比之下,数据驱动方法能够从真实人类与机器人发音数据中学习复杂的统计规律与隐含约束。胡宇航表示:“这从根本上突破了规则方法在泛化性、可扩展性和自然性上的瓶颈。”
想要更像人,机器人需要“照镜子”
为了让机器人更精准地复刻学习人类的嘴唇动作,胡宇航团队巧妙地设计了两阶段“自监督学习系统”(Self-Supervised Learning, SSL):第一阶段,机器人通过“照镜子”建立自我模型;第二阶段,它观看人类视频学习嘴唇运动规律。
“两阶段设计的核心原因在于机器人与人类在外观、结构和运动约束上的本质差异。”胡宇航解释道。若跳过第一阶段,直接让机器人模仿人类视频,将不可避免地学习到大量自身硬件无法执行的形变模式,例如人类皮肤的滑移、唇齿细节或肌肉驱动方式。这些错误映射最终会导致机器人动作失真、抖动或被系统性削弱。
第一阶段的“照镜子”训练,目的并非学习表情本身,而是让模型明确“哪些运动在自身硬件与软体结构下是可实现的”。通过随机生成数千个面部表情并观察镜中反馈,系统建立起从视觉变化到自身可控空间的映射关系,为后续学习提供物理可行性的约束。
在具备自我模型的基础上,第二阶段引入人类视频的作用变得清晰:机器人学习人类嘴唇运动的统计规律与高层时序结构,并通过自我模型将这些规律投射到自身可执行的动作空间中。“这本质上是先解决‘我是谁、我能怎么动’,再解决‘人类是如何动的’。”胡宇航说。该策略有效避免了跨形态直接模仿带来的域错配问题,是实现自然、稳定且可泛化嘴唇运动的关键前提。
出色的跨语言泛化能力
实验结果展示了这套系统的出色泛化能力:它能在 11 种语言中实现自然的嘴唇同步,包括英语、法语、日语、韩语、西班牙语、意大利语、德语、俄语、中文、希伯来语和阿拉伯语。
这种神奇的"跨语言"能力从何而来?胡宇航解释道:“系统并未学习语言或音素本身,而是学习了人类发音过程中更底层的肌肉运动模式。”在两阶段自监督框架下,模型首先熟悉机器人自身嘴唇能做出哪些动作;随后在观看人类视频时,它不再关注具体是哪种语言、哪个发音,而是去捕捉声音节奏与嘴唇动作之间那些跨越语言边界的共性规律。
“这些关系在不同语言中表现为高度一致的运动模式,比如张合节律、闭合-释放结构、过渡速度等。”换句话说,虽然各种语言的发音规则千差万别,但人类嘴唇的运动方式终究受限于相同的生理结构。正因如此,系统学到的是声音与动作之间更本质的对应关系,使它能够自然地适应多种语言,甚至应对不同的语速和说话风格。
尽管成果显著,胡宇航坦言系统仍面临技术挑战,其中最典型的是硬辅音(如 /b/、/p/、/m/、/w/)的处理。这些音素之所以棘手,不仅因为发音速度快,更因为它们同时涉及多重难以精确建模的约束条件。
以 /b/、/p/、/m/ 为例,发这几个音时,嘴唇需要在极短时间内完成“闭合—保持—释放”这一连串动作。闭合不够紧或时机稍有偏差,人耳立刻就能察觉异样。而 /w/ 更为复杂,不仅要求双唇闭拢,还需要嘴唇前突、形成圆形,同时配合口腔形状的连续变化。胡宇航补充,这意味着模型必须在毫秒级时间精度下,协调多个高度耦合的自由度,同时应对软体接触、非线性阻尼以及电机带宽限制等物理因素。
与元音或软辅音那种平滑渐变的动作不同,硬辅音更像是一种"开关式"的动作——既有连续的运动轨迹,又有瞬间的接触切换。这恰恰是当前数据驱动模型最容易出错、机器人执行难度最高的地方。
从实验结果来看,当前方法在一些极端语音场景下表现欠佳,比如语速极快、多人同时说话、歌唱中的颤音,以及情绪激动时的表达。胡宇航认为,这反映了方法的本质边界:"模型主要学习的是典型对话语境下声学时序与嘴唇运动之间的关系。"一旦输入偏离日常对话的范畴,系统性能便会下降。
不过他也指出,这些失效案例恰恰为未来研究指明了方向:“这也为我们引入更丰富的对话与语音场景提供了思路。”随着训练数据的丰富和模型能力的提升,这些边界场景的处理能力有望逐步改善。
在采访最后,DeepTech 问及这项技术是否会从唇部动作扩展到整个面部表情系统。
“会的。”胡宇航给出肯定回答,“我们团队的最终目标,是实现完整的类人交互。”如何协调唇部动作与眼神、眉毛等其他面部要素,形成统一而细腻的情感表达,正是团队下一步要攻克的方向。这不仅是技术上的自然延伸,更是对人机交互本质的深度探索。当机器人能够用整张脸来表达和理解情绪时,它与人类的关系将发生更深刻的转变。
论文地址:DOI: 10.1126/scirobotics.adx3017
营/排版:何晨龙
热门跟贴