“I’m sorry Dave”|声线|孙燕姿|类人|音色|音调

如果你对2013年的科幻电影《Her》有印象，大概很难忘记片中由斯嘉丽·约翰逊配音的人工智能Samantha那知性而令人留恋的声线。11年之后，这位女演员却为了自己的声音，跟科技公司OpenAI起了点争执：斯嘉丽·约翰逊说，后者曾经邀请她为ChatGPT的语音模式“Sky”配音，她没有同意，但OpenAI却还是上线了一款和她本人非常相似的声音（CEO萨姆·奥尔特曼也确实曾公开将Sky的demo称作“her”）。

与此同时的简中互联网， ChatGPT隐藏对话模式“DAN”（Do Anything Now），因为出乎预料的对答和语气丰富的模拟人声，以及“跟AI谈恋爱”的噱头，已经被讨论了相当长一阵子。

她 Her (2013)

不同于人工智能的外形（如果有的话）和谈吐，声音也一直是AI们不容忽视的部分，单纯的、标准化的“好听”，其实已经很难概括我们对它们的全部印象。从聊天机器人到拥有自我意识的AI，人类对它们的声音从好奇到习以为常再到爱恋沉迷，这中间到底发生了什么？

提到给人类留下最深刻印象的AI声音，答案往往会有两个方向， Siri、Alexa、Cortana是一类，《2001：太空漫步》里的HAL 9000，《钢铁侠》里的J.A.R.V.I.S.又是另一类。前者代表着机器人语音在现实中的画风：不强调特色、愉悦顺从，哪怕有一丝疑似非正常反应都令人胆战心惊（想想Alexa的几次古怪故障新闻），后者则蕴含着人类对智能语音的恐惧与理想：一种更高级的智慧生命存在，或邪恶或忠诚，时不时就有出乎人意料的反应，处处都透露着“不像是个单纯的助手”的迹象——尽管在真实世界里，人类明明是忌惮这种觉醒的。

当我们谈论智能机器人的“声音”的时候，我们究竟在谈论什么？一个温知识是，以上这些著名的机器人，哪怕听起来再怎么非人感，其实几乎都是真人配音：斯嘉丽·约翰逊的Samantha自不必说，HAL 9000的配音是加拿大知名舞台剧演员Douglas Rain，在电影剧本初稿中，它的配音者甚至是一名女性。后来，导演库布里克在一些“更美式”和更英式的选择之外，看中了“中大西洋口音”（Mid-Atlantic accent，一种标准美语与英国RP的混合口音）的Rain，才有了这台影史知名电脑冷峻、平缓到近乎残酷的声线。

《2001:太空漫游》里的HAL 9000及其配音演员Douglass Rain

Siri也是一样，虽然现在它的语音和语调已经可以由机器学习和算法生成，但在诞生初期，它的声音来自真人且不止一位：在不同国家与地区，多位不同性别的专业配音员共同参与创作了初代Siri的语音（尽管苹果公司从未真正承认过这一点），直到现在，据说苹果依然在使用真人录音作为Siri的基础声，只是技术让它变得更流利、更抑扬顿挫（例如“增加停顿，在停顿前先把音节拉长”）、会说的语种和口音也更多。

至于漫威宇宙里的管家J.A.R.V.I.S.，它的配音者是英国演员Paul Bettany（他同时还饰演了“幻视”一角），另一个女性智能系统F.R.I.D.A.Y.，则由爱尔兰女演员Kerry Condon配音，毫无疑问，他们也都保留了各自的本国口音。

《钢铁侠》中的J.A.R.V.I.S.与F.R.I.D.A.Y.

音色、口音、气息、音调，人类对“机器人会讲话”这件事的体察感知，与我们跟自己的同类对话并无多少不同。你或许听说过所谓的“副语言学”或者“伴随语言学”（paralinguistics），它所研究的正是语言交际过程中的表情、神色、体态、手势等等一切伴随着语言出现的、语言之外的部分，简而言之，就是研究我们如何说话，而不是我们说了什么。早在十年前，Siri之前的技术支持公司就曾经透露过这门学科在AI语音中的应用：“如果你很高兴，说话会很流畅，如果你很悲伤，说话会更生硬”，他们甚至可以在输出引擎里加入各种非语言元素——停顿、啧啧（tuts）、呼吸，甚至咳嗽，这一切都能让虚拟声音听起来更逼真、更自然。

她 Her (2013)

至于Samantha和她的演绎者斯嘉丽·约翰逊，那被影评人称赞为“温暖了整部电影”“堪称当年电影里最具人性的角色之一”的声线，甚至引起了行为学家们的关注。他们的研究表明，让Samantha听起来如此真实的，并不是演员说了什么，而是她说话的方式。

其实，电影验证的是我们从心理学中已经得到的结论——声音，如果能被自然地运用，就能成为传达人类思维的有力工具，是声音让这部科幻电影能够毫无阻碍地关注爱情和人性这些日常的话题。而在这其中，声音的音调变化量，而不是任何其他的副语言，很可能是人类向他人传递信息的决定性因素。换句话说，“声音传达人性”的关键之一在于音调变化，而Samantha的音调起伏被设计得更加到位，这或许就是她和你每天听到的手机助手、AI短视频一样虽无形体，却能令人信服地让另一个人类坠入爱河的理由。

为什么“像人”会成为获得人类之爱的关键？对于这个问题，我们很容易联想到那个著名的恐怖谷理论：人类对机器人和非人类物体，当后者与人的相似度到达特定临界值时，好感度会骤降；但只要越过那个临界值，相似度到达普通人类之间的水平时，人类对它们的情感反应会再度回升，产生人类之间才有的移情作用。那么，声音也遵循这个定律吗？

科幻作家刘宇昆在他的短篇小说《机器人护工》里，曾经这样解读机器人的特殊声线：“使用这种声音是它经过大量运算后做出的决定，目的就是避免不必要的麻烦。如果机器发出的声音过于接近人声，你还会感到有点吓人，在感情上难以接受”。有一些研究者早就注意到了这一点，提出过某些类似的理论：在恐怖电影或者恐怖游戏中，讲话嘴形过于夸张、熟悉或标志性的声音出现奇怪的变化、听觉与视觉效果的保真度出现偏差，等等，都可以渲染处怪异的气氛；类似地，一些过于“完美”“空灵”的人造声音（比如由虚拟歌手唱的歌），也会令人有“不太对劲”的感觉。

《传送门》中的GLaDOS和她演唱的“Still Alive”

这样的理论在某种程度上确实为我们带来了许多流行文化里的经典形象：游戏《传送门》系列里的GLaDOS，它怪异、无情又有趣的声线，来自配音演员Ellen McLain，后者刻意模仿了语音合成器的拟人声效果，那两首大受好评的ED“Still Alive”和“Want You Gone”，当然也是由Ellen本人以机械腔演唱。

《机械公敌》里的全能系统Viki和为觉醒意识所困的机器人Sunny，那如出一辙的轻盈却善恶难辨的完美女声和男声，则是Fiona Hogan和Alan Tudyk的贡献（想想片中Sunny跟人类学习的那 wink，就是非常典型的副语言）；《底特律·变人》里的康纳，动捕来源和配音者是Bryan Dechart，这位相貌清秀的仿生人警察则似乎已经跨过了声音和形象的的恐怖谷，从外貌到说话方式都与人类几乎一样，角色本身的复杂性格和身为机器却亲近人类的立场，也让他成为了这款游戏同人里的二创热门。

《机械公敌》中的Sunny

关注机器的“类人感”，就像我们喜欢所谓“通人性”的动物一样，其实并不是一件本该如此的事。人类天然就是人类中心主义者，天然就会对像我们、爱我们、以我们的需求为需求的事物产生更多的亲近与好感，哪怕是前面提到的那些机械反派或者AI怪兽也是一样，它们操着人类的口音，讲着人类的语言，首先就已经度过了第一道共情难关。以这个思路发散下去，你其实很难否认某些情愫当中“人类凝视”和工具理性的部分：我们容易喜欢或依恋一个事物当中任何接近“人性”的部分，如果它只是人类的拙劣模仿，比如无聊的机械音，那好感当然有限，但一个能力超越普通人而又有类人“性格”的存在——比如HAL 9000的邪恶感、J.A.R.V.I.S.的反差萌、GLaDOS的狡黠，对我们的情感刺激是可想而知的。

2001太空漫游 2001: A Space Odyssey (1968)

我们从自己的偏好出发，决定喜欢什么样的AI，这其实是并不是一件让人完全安心的事：联合国教科文组织在2019年的研究就已经发现，这些声音看似友好完美的女性声音的语音助手，会加深人类用户已有的性别刻板印象和歧视。“由于大多数语音助手的声音都是女性，这会传达出一种信号，即女性是乐于助人、渴望取悦他人的、温顺的助手”“助手除了指挥官要求的之外，没有任何权力，这会强化女性都很屈从的观念”。尽管在此之后，几家大公司都调整了各自语音助手的默认声音和选项，但这种想当然的先入为主，跟我们在许多虚构电影中看到的某些令人不适的“人类剥削机器人”的场景其实并无本质差别。人类对同胞的傲慢与偏见，被证明几乎毫无变化地延续到了人类与AI之间——有谁敢承认自己对机器音的喜爱或厌恶，没有包含哪怕一丝对后者的优越感和控制欲呢？

另一方面，人类所制作和操控的AI声音，与其他人类之间也不是毫无利益冲突的。最近两年，制作公司和网友们已经学会了用人工智能工具“克隆”真人甚至是逝者的声音，导致一些职业配音演员和歌手的饭碗受到了一定的威胁，这其中包括声音“版权”在内的法律纠纷姑且不论，光是可能出现的伦理问题都足以令人担忧。

《底特律: 变人》中的康纳

按照诺丁汉特伦特大学心理学讲师Mark Griffiths的说法，“人们总是以性的方式使用东西。你可以说出任何东西的名字，从散热器到易拉罐，总有人会被它激起性欲。”我们对机器人声音的喜爱，很难说是不是某种机械癖和声音癖的结合。数字人工智能专家Steve Worswick也认为，人类对AI产生的性依赖和情感依赖，在某种程度上，也是一种广义的机械癖。

对机器的喜欢，能让我们更懂爱、成为更好的人吗？科技生活让智能人声成为了一种符号，人类其实一直在反过来试图模仿这种音色美好、措辞完备、“情绪稳定”的声音，甚至觉得它比自然状态下的人声更迷人，调教起来也更有造物者的成就感，就像德国电影《我是你的人类》里丹·史蒂文斯演绎的完美机器人男友（他在片中还同时表演了“日常状态下的机器人”和“人类刻板印象中的机器人”两种声线），几乎可以说是“我与ChatGPT谈恋爱”的终极形态，而片中的女主角虽然心动不已，却还是看出了这种前景的隐患：“如果我们允许类人机器作为配偶，我们将创造一个由瘾君子组成的社会，因为他们的需求会被永久地满足，变得贪婪而疲惫，无法再忍受冲突、改变自我”，进而无法维持正常的人类接触。所以，她最终还是投下了反对票。

但更多时候，理智的抵抗并不能挡住情感与技术的双重诱惑。就在半个月前，OpenAI又发布了新模型GPT-4o（o 代表“omni”），它的对话能力变得更加逼真了，不仅可以检测对话声音中的情绪，分析用户的面部表情，还可以根据你的需求改变自己的语调和节奏：“你想听睡前故事，它可以把音量降低到耳语；你需要一位有趣的朋友，它可以换成俏皮、讽刺的语气；它甚至可以按照你的要求唱歌”。而GPT-4o的人类同事们，也毫不掩饰自己对它的拟人化和由衷喜爱，不仅会向它问好，为它加油，甚至还在纸上写下了“I❤️ChatGPT”这样热情的表白。

《我是你的人类》女主初遇机器人男友

我们现代人的困境就是如此真切：与实实在在的人际关系脱节，却在虚拟科技上花费了太多时间，在情感上封闭自己，宁可对无生命之物推心置腹。机器可以永生，而“真正的”关系不一定是永恒的。面对无可回避的科技浪潮，我们就和宅男Theodore一样，对着没有形体的Samantha ，反而更容易对她产生真正的共情，因为她可以活在幻想中，成为你想要和需要的任何东西。就像歌手孙燕姿评价AI孙燕姿，“人类无法超越它已指日可待。没有人可以接触到如此大量的信息并做出恰当的抉择或犯下恰当的错误。这种新技术将能够大量炮制每个人所需的一切……我不认为爱的理念可以挽救局面”。

激进也好，虚无也罢，“在这无边无际的存在之海之中，凡事皆有可能，凡事皆无所谓”，人类对虚拟之物的真实爱恨，既不特别，也不是欲望的终点，只是有些关系被重建，而有些意义则被消解，你最爱的“人类”声音，甚至是最爱的“人”，或许就是下一个AI。