当人们面对面交流时,近一半的注意力会被对方的嘴唇移动吸引。然而,机器人至今仍难以做出逼真的唇部动作——即使是最先进的人形机器人,要么没有面部,要么嘴唇动作僵硬夸张,像木偶一样机械。
人类对面部表情极为重视,尤其是嘴唇的细微动作:走路笨拙、手势僵硬尚可原谅,但面部动作哪怕微小失误也会立刻被察觉。这种敏感度正是“恐怖谷效应”的成因之一——机器人不仅不逼真,反而让人感到不安,而唇部动作不自然是机器人显得诡异或缺乏情感的主要原因。不过,研究人员表示,这种情况可能很快改变。
一、会“自学唇动”的机器人来了
1月15日,哥伦比亚工程学院团队宣布了人形机器人领域的重大突破:他们首次打造出能自主学习说话、唱歌时唇部动作的机器人。研究成果发表在《科学·机器人学》杂志上,视频显示机器人能清晰做出多语言发音的唇形,甚至演唱其AI生成的首张专辑《hello world_》中的歌曲。
与传统预设规则不同,这款机器人通过观察学习掌握唇动:它先利用26个独立面部电机,对着镜子探索如何控制自己的面部,像孩子对着镜子做表情一样,逐步学会用电机组合出特定面部形状(这一过程依赖“视觉-动作语言模型”);随后,它观看了数小时YouTube上人类说话、唱歌的视频,学习唇部动作与声音的对应关系。
“它和人类互动越多,表现就越好,”研究负责人、哥伦比亚大学创意机器实验室主任Hod Lipson教授表示。
二、突破两大难点:硬件+动态唇语同步
让机器人做出自然唇动的难点有二:一是硬件要求高,需要柔性面部材料和大量静音且精准协调的微型电机;二是唇部动作与语音高度绑定,语音由复杂音素序列构成,变化极快。
人类面部由皮下数十块肌肉控制,动作能随语音自然流畅变化;但多数人形机器人面部僵硬、动作有限,唇部动作由固定规则驱动,导致表情机械、不自然。
哥伦比亚团队的解决方案是:打造高自由度柔性面部,让机器人先自我探索面部控制逻辑,再通过观察人类建立“声音-唇形”的直接关联。无需理解语义,机器人就能将音频转化为同步的唇部动作。测试显示,它能适配多种语言、不同语速的讲话和唱歌场景,仅在发“B”等爆破音或“W”等噘唇音时存在小瑕疵,团队表示后续通过训练可改善。
三、不止“对口型”:迈向情感化人机交互
研究团队强调,唇动同步只是第一步,他们的目标是赋予机器人更自然、丰富的沟通能力。
“当唇动同步能力与ChatGPT、Gemini等对话AI结合,机器人与人类的连接将达到全新深度,”主导研究的博士生Yuhang Hu说,“机器人观察人类对话越多,就越能模仿那些能引发情感共鸣的细微面部动作,对话上下文越长,这些动作就越贴合语境。”
Lipson教授指出,当前人形机器人研发多聚焦于行走、抓取等肢体动作,但面部情感表达在人机交互中同样重要。随着机器人进入娱乐、教育、医疗和养老领域,逼真的面部表情将愈发关键——有经济学家预测,未来十年全球人形机器人产量将超10亿台。
“未来的人形机器人不可能没有脸,而它们一旦有了脸,就必须能自然地动眼睛、动嘴唇,否则永远无法摆脱恐怖谷效应,”Lipson说,“人类天生如此,我们对真实面部动作的感知无法改变。而我们正接近跨越恐怖谷。”
四、伦理考量:技术需谨慎推进
这项研究是Lipson团队长期探索的延续——他们一直致力于让机器人通过观察学习微笑、眼神交流等面部行为,而非通过僵硬编程实现。
“当机器人通过观察人类学会微笑或说话时,会产生一种奇妙的连接感,”Lipson说,“我作为资深机器人专家,也忍不住会对自发微笑的机器人回以微笑。”
Hu补充道,人类面部是最强大的沟通工具之一,科学家才刚刚开始理解其运作机制:“具备这种能力的机器人,能更好地与人类建立连接——毕竟我们的沟通中,面部肢体语言占了很大比重,而这一渠道在机器人领域仍未被开发。”
同时,团队也意识到技术带来的伦理问题:“这将是一项强大的技术,我们必须循序渐进、谨慎推进,在收获益处的同时将风险降至最低。”
热门跟贴