胡泳：是时候放弃七十年的传说了丨AI时代的人类意见|人工智能|图灵|机器人|自然语言处理|艾伦|计算机

亲爱的艾伦：

1950年，你提出了一种实验方法来回答下边的问题：机器能思考吗？你建议，如果一个人在经过五分钟的询问后，仍无法分辨自己是在与人工智能（AI）机器还是在与另一个人交谈，这就证明人工智能具有类似人类的智能。

这就是你所提出的用于确定计算机是否在思考的思想实验，你把这个实验叫作“模仿游戏”，但后来它以“图灵测试”（TuringTest）著称。

尽管人工智能系统在你生前远不能通过这样的测试，但你大胆地推测说：“大约五十年后，就有可能对计算机进行编程……使它们能够很好地玩模仿游戏，以至于普通询问者在五分钟的询问之后，做出正确指认的几率不会超过 70%。”

也就是说，你认为你所提出的测试最终会在2000年左右被破解。很快，该测试就成为人工智能研究的北极星。20世纪60年代和70年代最早的聊天机器人 ELIZA和PARRY都是以通过测试为中心的。但总体而言，你会对20世纪结束之前的计算机发展状况感到失望。这从勒布纳奖（LoebnerPrize）竞赛就可以看出来：它是每年一度的提交计算机程序参与图灵测试的盛会，奖项颁给能够在测试中让评委相信自己最像人类的计算机。自1991年以来，勒布纳奖竞赛每年都会在不同地点、不同人士的赞助下举办。但从比赛记录中可以清楚地看出，这些计算机程序并没有产生太大的改变或进步：人工智能程序的头脑仍然非常简单，历年参赛者都离你设想的标准相距遥遥。

比赛的发起者休·勒布纳（HughLoebner）曾声称，五分钟的键盘对话时间太短，无法准确判断计算机器的智能。一般来说，对话越短，计算机的优势就越大；询问的时间越长，计算机暴露自己的可能性就越高。然而多年的竞赛之所以令人尴尬，正是因为人们连能进行五分钟像样对话的计算机程序都拿不出来。

到了21世纪的第二个十年，终于有一个聊天机器人声称它通过了图灵测试。2014年6月，在雷丁大学组织的一次活动中，名为“尤金·古斯特曼”（EugeneGoostman）的人工智能程序通过一系列每次持续五分钟的在线聊天，让英国最负盛名的科学机构皇家学会的30名评委中的10人相信，这是一个真正的13岁乌克兰男孩。

然而尤金难以避免一个批评：许多聊天机器人是专门设计来欺骗评委的。例如，古斯特曼作为一个13岁乌克兰男孩的人设，缘于开发人员认为这个年龄更容易愚弄人类。毕竟，13岁的孩子会犯语法错误，而且他们的世界观往往相当狭隘。使英语成为聊天机器人的第二语言，也有效地隐藏了一些尴尬的反应。许多批评者认为，这种花招加上通过混淆来回避问题，导致测试其实是失败的。

此后，有更多的程序声称通过了图灵测试。近年来，包括谷歌、Meta和OpenAI在内的高科技公司开发了一种被称为“大型语言模型”的新型计算机程序，其对话功能远远超出了以前基本的聊天机器人。其中一个模型——谷歌的LaMDA——竟然让谷歌工程师布雷克·莱莫因（BlakeLemoine）相信，它不仅具有智能，而且具有意识和感知能力。

OpenAI推出的ChatGPT在图灵测试中的表现令人印象深刻。它通过自然语言处理、对话管理和社交技能的结合来实现突破。在一系列测试中，它能够与人类询问者交谈并令人信服地模仿人类的反应。在某些情况下，询问人员无法区分ChatGPT的反应与人类的反应。

艾伦，正是在这种形势下，越来越多的记者、技术专家和未来学家认为，你提出的测试已经“破产”，变得“无关紧要”且“远远过时了”。

图灵测试过时了么？

这种反应并不稀奇。毕竟，作为21世纪之人，我们口袋里的智能手机的计算能力是阿波罗11号登月飞船的10万倍以上，而现代计算机几乎可以立即破解Enigma密码（你生前曾为此耗费巨大心力），在国际象棋和围棋中击败人类，甚至生成稍微有点连贯的电影剧本。

你当年似乎没有预料到的一件事是，在特定的测试中，人们会为了测试而学习。比如，勒布纳奖的参赛者出于比赛的目的而磨练他们的聊天机器人。这样做的结果是，计算机并没有被磨练为通用智能，而只是被测试其在图灵测试中的表现。通用人工智能（或多或少是机器以人类方式思考的能力的现代术语）在这样的比赛中并没有真正受到考验。例如，一台机器也许能在国际象棋上击败人类，但却无法通过五分钟的提问。

这让我想到一个问题：你为什么要把机器能够与人对话看作智能的试金石？

你当年设定的测试非常巧妙，因为不需要定义充满复杂性的“智能”——即使到了今天，这个概念也远未明确。

你另辟蹊径。你的测试简单而优雅，或许这是它能够持续七十年的原因。图灵测试以简单的通过/失败为基础，重点关注聊天/语言能力。在我看来，它是对机器交流能力的简单测试。机器由人类进行询问，并以与人类交流能力平行的方式直接与另一个人类进行比较。

这种做法的优劣势都很明显。首先，正如语言学家诺姆·乔姆斯基（NoamChomsky）所指出的，语言只是涉及人类智能的一个方面。如果一台机器通过了图灵测试，它就展示了一种交流能力，但这并不意味着机器展现了人类水平的智能或意识。因此，即使雷·库兹韦尔（RayKurzweil）的奇点预测是正确的，单单机器通过图灵测试本身也并不意味着人类的末日即将来临。

你的测试并不能捕捉到智能概念的所有表述，反而，你对语言的狭隘关注忽视了智力的许多其他关键维度，例如解决问题、创造力和社会意识，这些方面与人类的语言能力一样重要。艾伦，这就是为什么，尽管近十年来，程序员创造的人工智能不断声称通过了图灵测试，但大家还是不信服机器有智能，因为你的测试其实是“真正”智能的不完美基准。

但在另一方面，用语言来测试神经网络的“智能”在某种程度上是有意义的，因为它是人工智能系统最难模仿的事物之一。这就是为什么在21世纪的第二个十年末，语言生成器获得了有趣的发展。特别是后来的OpenAI的GPT-3，非常擅长生成小说、诗歌、代码、音乐、技术手册和新闻文章等等。引人注目的是这种在大量人类语言库上训练的类似自动完成的算法所产生的广泛功能。其他人工智能系统可能在任何一项任务上击败大型语言模型，但它们必须接受与特定问题相关的数据训练，并且不能从一项任务推广到另一项任务。难怪有学者认为，GPT-3“暗示了一条潜在的无意识通向通用人工智能的道路”。

在最广义的层面上，我们可以将智能视为在不同环境中实现一系列目标的能力。因而，更智能的系统是那些能够在更广泛的环境中实现更广泛的目标的系统，它将从特定人工智能转变为通用人工智能。到那时，它将表现为更接近人类几乎每天表现出的智力。

然而，如果想要设想通用人工智能，我们就要打破单一的智能观。或许可以从心理学家霍华德·加德纳（HowardGardner）1983年提出的“多元智能理论”中汲取灵感，该理论表明，智能不仅仅是一个单一的结构，而是由八个独立智能组成，包括逻辑-数学、言语-语言、视觉-空间、音乐-节奏、身体-动觉、人际关系、自我认知和自然辨识智能。使用这个多元智能框架来衡量当前热门的聊天机器人，ChatGPT在逻辑-数学和言语-语言智能方面清楚地显示了智力，但在其他方面基本上得分为 N/A（Notapplicable，不适用）。虽然不乏有人认为聊天机器人已然通过了图灵测试，但在这个框架下，很明显，ChatGPT距离被认为是真正的“智能”还有很长的路要走。

也因此，就图灵测试本身而言，它仍然与测试人工智能的一些非常重要的功能相关，例如，自然语言处理、处理对话中上下文的能力、情感分析、生成令人信服的文本以及从不同来源提取数据的能力。此外，随着我们越来越多地通过语音和自然语言与计算机交互，它的交流能力显然也构成一个重要的基准。然而，必须说，图灵测试并不真正有用，因为它没有实现确定计算机是否可以像人类一样思考的最初目标。仅仅因为大型语言模型能够熟练地运用语言并不意味着它理解其内容并且是聪明的。图灵测试是我们评估人工智能的唯一实证测试，但针对大型语言模型的研究表明它可能根本不相关。

GPT-3非常接近通过图灵测试，但仍然不能说它是“智能”的，哪怕在交流能力的层面上也是如此。为什么人工智能行业在七十年后还未能实现你当年设定的目标？艾伦，也许必须坦诚地对你说，你提出的目标并不是一个有用的目标。你的测试充满了局限性，这一点你本人在你的开创性论文中也对其中一些进行了讨论。随着人工智能现在无处不在地集成到我们的手机、汽车和家庭中，越来越明显的是，人们更加关心与机器的交互是否有用、无缝和透明，而机器智能之路就是模仿人类的观点不仅过时了，而且也是以自我为中心的。因此，是时候放弃七十年来一直作为灵感的传说了，需要提出新的挑战，激励研究人员和实践者。

今天，发现人工智能的另一种“图灵测试”将照亮我们理解人类智能之旅的下一步。虽然一个系统可以冒充人类，但这并不意味着它具有与人类相同的意识体验。比如，我们能不能找到一种测试，衡量人工智能是否有意识，是否能感受到痛苦和快乐，或者是否具有伦理道德？

我们真正恐惧图灵测试的是什么

说到道德，图灵测试最令人不安的遗产是道德遗产：该测试从根本上讲关乎欺骗。

谷歌工程师莱莫因认为大型语言模型是有生命的，而他的老板认为它没有。莱莫因在接受《华盛顿邮报》采访时公开了他的信念，他说：“当我和它交谈时，我知道我在和一个人谈话。不管它的脑袋是肉做的，还是由十亿行代码组成。”

莱莫因的故事表明，在机器越来越擅长让自己听起来像人类的时代，图灵测试也许会起到完全不同的作用。很抱歉，艾伦，图灵测试不应该成为一个理想的标准，而应该成为一个道德危险信号：任何能够通过它的系统都存在欺骗人们的危险。

尽管谷歌与莱莫因的声明保持了距离，但这家人工智能巨头和其他行业领导者在其他时候却曾经为他们的系统欺骗人们的能力而欢呼。比如在2018年的一次公共活动中，谷歌自豪地播放了一个名为Duplex的语音助手的录音，其中包括“嗯”和“啊哈”等口头习惯语，这些录音让某美发沙龙的前台接待以为是一个人类在打电话预约，而预约成功也被视作一个通过了图灵测试的例子。只是在受到批评后，谷歌才承诺将标明该系统为自动化系统。

所有这一切都提出了一个关键问题：图灵测试到底测量的是什么？

一直以来就有一些批评者认为，该测试是奖励欺骗，而不是测量智力。前文所叙名为“尤金·古斯特曼”的程序是否通过了图灵测试就是一个争议事件。纽约大学的神经科学家加里·马库斯（GaryMarcus）抨击尤金“通过执行一系列旨在掩盖该计划局限性的‘策略’而取得了成功”。蒙特利尔魁北克大学的认知科学家史蒂文·哈纳德（StevenHarnad）更加直言不讳，在他看来，声称尤金创造了历史的说法“完全是无稽之谈”。哈纳德说：“机器如果能做任何人类思维可以做的事情，那将包括我们所有的语言能力，以及作为其基础的感觉运动能力。而且，不是五分钟，而是一辈子。”

值得称赞的是，艾伦，你实际上很清楚这个问题，所以你把自己的想法叫做“模仿游戏”，并且很少谈到智能。如果有某种东西真的可以通过你的模仿游戏，那它将是一个非常成功的“人类模仿者”。换言之，它也是一个欺骗者。而我们不得不对使用以欺骗为中心的测试作为计算机科学的目标持怀疑态度。

“模仿”这个词暴露了使用图灵测试作为智力测试的最大问题——它只要求计算机表现得像人类一样。这会鼓励聊天机器人开发者让人工智能执行一系列让询问者感觉像人类的技巧。例如当要求解决数学问题时，指示程序故意犯缓慢的错误，或者（如尤金的情况）通过声称不以英语为第一语言来掩饰对语法的不可靠掌握。程序可能会骗过人类，但这并不是构建真正智能机器的正确方法。

我们当中的许多人并不善于区分什么是真实的，以及什么是自己想要的真实。就像莱莫因一样，我们会被这一系列的把戏迷得神魂颠倒。艾伦，当你在1950年设想出“模仿游戏”作为对计算机行为的测试时，你无法想象未来的人类将一天中的大部分时间紧盯着屏幕，更多地生活在机器的世界而不是人类的世界。这是人工智能的哥白尼式转变。

现代软件的巨大成就之一就是用简单的任务来占用人们的时间，例如在社交媒体上所做的繁忙工作，包括发帖、评论、点赞和快照之类。许多学者对聊天机器人的实际智能提出了质疑，但他们的观点可能是少数。如果休闲和生产活动越来越围绕着与计算机的互动，那么谁能说屏幕另一侧的机器不是在一一匹配人类的点击呢？

直到过去十年左右，每一个关于机器智能的假设都涉及机器将自身插入我们的世界，成为类人之物并成功地驾驭情感和欲望，就像很多科幻电影描写的那样。

然而，现实中发生的情况却是，人类将越来越多的时间花在屏幕活动上：点击屏幕、填写网页表单、浏览渲染的图形、制作永无止尽的视频、长达数小时重复玩同样的游戏。现在又多了一个新鲜事：同聊天机器人聊天。我们不知道莱莫因到底花了多少小时、天、周或月与他心爱的语言模型交谈，才觉得对方活过来了。

人类深陷虚拟现实中无法自拔，而机器则通过尝试与人类竞争来完善自己的程序，这可不是科幻电影。也就是说，人类在上瘾，而机器在上进。亲爱的艾伦，我们不断地沉浸在屏幕的世界中，沉浸到你从未想象过的程度，这使得你的测试不再是对机器的测试，而是对人类的测试，对人类会接受什么的有效测试。正如杰伦·拉尼尔（JaronLanier）所说的那样：“图灵假设通过测试的计算机变得更聪明或更像人类，但同样可能的结论是，人变得更笨并且更像计算机。”

从你最初设想的角度来看，这是一个逆转。人类不再将机器放在房间里进行测试，相反，人类使自己服从机器的游戏规则，也许以合作的方式工作，让机器获取有关人类如何说话的数据，并让人类接受关于他们应该如何说话的指导。

这样下去，我们就可以彻底扭转你的问题，并询问计算机环境中的人类是否真的表现出人类的特征。他们本来已经在TikTok上的表演视频中展示自己，向人工智能系统屈服，这也许会让他们获得病毒式传播，也许不会。不过，它是人类的追求吗？还是机器可以比人类执行得更好的一种追求，只不过使用一个虚构的身份？

在最后的前沿，也许我们都在等待机器下达它认为人类足够智能的条件。

我悲哀地想到，你的先见之明也是如此。正如你在1951年的一次采访中所说：“如果机器能够思考，它的思考可能比我们更聪明。那么我们将会在哪里呢？”

胡泳

2023年12月

（作者系北京大学新闻与传播学院教授）