看镜子自学+模仿人类：哥伦比亚机器人解锁逼真唇语|人形|动作|哥伦比亚|微笑|机器人|看镜子

当人们面对面交流时，近一半的注意力会被对方的嘴唇移动吸引。然而，机器人至今仍难以做出逼真的唇部动作——即使是最先进的人形机器人，要么没有面部，要么嘴唇动作僵硬夸张，像木偶一样机械。

人类对面部表情极为重视，尤其是嘴唇的细微动作：走路笨拙、手势僵硬尚可原谅，但面部动作哪怕微小失误也会立刻被察觉。这种敏感度正是“恐怖谷效应”的成因之一——机器人不仅不逼真，反而让人感到不安，而唇部动作不自然是机器人显得诡异或缺乏情感的主要原因。不过，研究人员表示，这种情况可能很快改变。

一、会“自学唇动”的机器人来了

1月15日，哥伦比亚工程学院团队宣布了人形机器人领域的重大突破：他们首次打造出能自主学习说话、唱歌时唇部动作的机器人。研究成果发表在《科学·机器人学》杂志上，视频显示机器人能清晰做出多语言发音的唇形，甚至演唱其AI生成的首张专辑《hello world_》中的歌曲。

与传统预设规则不同，这款机器人通过观察学习掌握唇动：它先利用26个独立面部电机，对着镜子探索如何控制自己的面部，像孩子对着镜子做表情一样，逐步学会用电机组合出特定面部形状（这一过程依赖“视觉-动作语言模型”）；随后，它观看了数小时YouTube上人类说话、唱歌的视频，学习唇部动作与声音的对应关系。

“它和人类互动越多，表现就越好，”研究负责人、哥伦比亚大学创意机器实验室主任Hod Lipson教授表示。

二、突破两大难点：硬件+动态唇语同步

让机器人做出自然唇动的难点有二：一是硬件要求高，需要柔性面部材料和大量静音且精准协调的微型电机；二是唇部动作与语音高度绑定，语音由复杂音素序列构成，变化极快。

人类面部由皮下数十块肌肉控制，动作能随语音自然流畅变化；但多数人形机器人面部僵硬、动作有限，唇部动作由固定规则驱动，导致表情机械、不自然。

哥伦比亚团队的解决方案是：打造高自由度柔性面部，让机器人先自我探索面部控制逻辑，再通过观察人类建立“声音-唇形”的直接关联。无需理解语义，机器人就能将音频转化为同步的唇部动作。测试显示，它能适配多种语言、不同语速的讲话和唱歌场景，仅在发“B”等爆破音或“W”等噘唇音时存在小瑕疵，团队表示后续通过训练可改善。

三、不止“对口型”：迈向情感化人机交互

研究团队强调，唇动同步只是第一步，他们的目标是赋予机器人更自然、丰富的沟通能力。

“当唇动同步能力与ChatGPT、Gemini等对话AI结合，机器人与人类的连接将达到全新深度，”主导研究的博士生Yuhang Hu说，“机器人观察人类对话越多，就越能模仿那些能引发情感共鸣的细微面部动作，对话上下文越长，这些动作就越贴合语境。”

Lipson教授指出，当前人形机器人研发多聚焦于行走、抓取等肢体动作，但面部情感表达在人机交互中同样重要。随着机器人进入娱乐、教育、医疗和养老领域，逼真的面部表情将愈发关键——有经济学家预测，未来十年全球人形机器人产量将超10亿台。

“未来的人形机器人不可能没有脸，而它们一旦有了脸，就必须能自然地动眼睛、动嘴唇，否则永远无法摆脱恐怖谷效应，”Lipson说，“人类天生如此，我们对真实面部动作的感知无法改变。而我们正接近跨越恐怖谷。”

四、伦理考量：技术需谨慎推进

这项研究是Lipson团队长期探索的延续——他们一直致力于让机器人通过观察学习微笑、眼神交流等面部行为，而非通过僵硬编程实现。

“当机器人通过观察人类学会微笑或说话时，会产生一种奇妙的连接感，”Lipson说，“我作为资深机器人专家，也忍不住会对自发微笑的机器人回以微笑。”

Hu补充道，人类面部是最强大的沟通工具之一，科学家才刚刚开始理解其运作机制：“具备这种能力的机器人，能更好地与人类建立连接——毕竟我们的沟通中，面部肢体语言占了很大比重，而这一渠道在机器人领域仍未被开发。”

同时，团队也意识到技术带来的伦理问题：“这将是一项强大的技术，我们必须循序渐进、谨慎推进，在收获益处的同时将风险降至最低。”