20世纪计算机科学和认知科学的发展,在一定程度上已经将人类思维的哲学争论转变为科学探索。这种范式的转变很大程度上得益于计算机与人脑的类比。作为这一范式转变的结果,人工智能这门学科应运而生。阿兰·图灵(Alan Turing)1950年发表的《计算机器与智能》一文通常被认为是人工智能兴起的标志。在这篇文章中,图灵提出了著名的“图灵测试”方案,这个方案不仅给人类智能提供了一个可操作的定义,同时通过“模拟游戏”的方式将“机器能否思考”这个问题呈现在人们面前。
本文的主要目的是在解读图灵这篇经典文献的基础上,对60年来有关图灵测试的哲学争论作一番较为系统的梳理。文章的前两节分别阐述何谓图灵测试,以及图灵本人对该测试方案可能遇到的反对意见所作的辩驳。第3节重点讨论半个多世纪以来哲学界对图灵测试的诘难与辩护。第4节考察人工智能学界关于图灵测试历史地位的争论。
一、图灵测试方案
1950年,图灵在《计算机器与智能》的开篇就提出了一个令人类深思的问题:“机器能够思考吗(can machines think)?”图灵认为,关于机器是否能思考的争论之所以难以解决,是由于我们没有一个关于“机器”(machine)和“思考”(think)的明确定义。他指出,用常规方法定义是“危险的”和“荒唐的”,为此,图灵设计了一种实验的方法来判定机器是否能够思考,或机器是否具有智能,试图为机器能不能思考的争论双方提供一种判决准则。图灵的目的是找到一个与之相关的问题来解决此问题,并且用“没有歧义的语言来表达”。这个方法就是著名的“图灵测试”。
图灵测试起源于图灵设计的一个模拟游戏。游戏由三个人来做,一个男人(A),一个女人(B),还有一个提问者(C),性别不限。提问者待在一间与另两人分开的房子里。提问者在游戏中的目标是,确定另外两人哪一个是男性,哪一个是女性。他以标号X和Y称呼他们,在游戏结束时,他可能说“X是A,Y是B”,也可能说“X是B,Y是A”。提问者C可以向A和B提出这样的问题:
C:X,请你告诉我你的头发长度,可以吗?
假定X实际上是A,那么A必须做出回答。A在游戏中的目标是,尽量使C做出错误判断。于是,他可能回答说:“我的头发是瓦盖式的短发,长的一束大约长9英寸。”
为了不让提问者从声调中得到帮助,这些回答应当写出来,若能打印出来则更好。理想的安排是,两间房子之间用一台电传打印机进行交流。也可以用一个中介人来重复提问和回答。第三个游戏参与者(B)的目标是帮助提问者。对她来说,好的策略或许就是如实回答。她在回答时可以加上这样的话:“我是女性,别听他的!”不过这种做法未必真能奏效,因为那个男士也可以运用同样的方式。
图灵测试的核心是询问:“如果这个游戏中用一台机器代替A,会出现什么情况?”在这种情况下做游戏时,提问者做出错误判断的次数和他同一个男人和一个女人做这一游戏时一样多吗?图灵认为,如果询问者无法判断另一个屋子里面是人还是机器,那么屋子里的机器就可以称得上是有智能的,这台机器是可以思考的。图灵还认为,这种模拟游戏的问答方法原则上适用于人类心智的任何领域。
图灵测试的重要特征首先在于它给出了一个可操作的智能定义,也就是根据对一系列特定问题的反应来决定一个客体是否是智能体,这就为判断智能提供了一个客观标准,从而避免了有关智能本质的无谓争论。其二,这项实验使我们免于受到目前无法回答的问题的牵制,比如计算机的内部处理方法是否已知,以及机器是否意识到其本身的动作等等。其三,由于询问者只关注回答问题的内容,这样就消除了偏爱于生物体的设置。
二、图灵本人的辩驳
图灵测试貌似一个简单的模拟游戏,然而其背后所蕴含的思想极为深刻。在《计算机器与智能》一文中,图灵首先从7个方面探讨了机器能否思考这个问题,包括智能计算机特点、机器智能的评判标准和智能计算机器的学习能力。作为一位严谨的思想家,图灵还设想了“图灵测试”可能遇到的9个方面的反对意见,包括神学方面、数学方面和心理学方面的反对意见,并且逐一进行了辩驳。下面我们就具体考察一下图灵的辩驳。
1.神学上的反对意见
思考是人类不朽灵魂的一种机能。上帝把不朽的灵魂给了每个男人和女人,而没有给任何其他动物和机器。所以任何动物和机器都不能思考。
图灵认为,这是神学家的观点,他们把人类中心论的观点强加给了上帝,认为上帝对于人类给予了更高级别的优惠,只能把心灵赋予人类。对于这种论点,图灵采用了神学家的一贯论证方式进行了反驳:既然上帝是全能的,那么就不应当否认他能把心灵赋予任何事物甚至大象的能力;人类不应当用不虔诚的心态来限制上帝赋予任何事物以灵魂的能力。神学家坚持错误观点的例子在科学史上屡见不鲜。比如,神学家一度相信地球是宇宙的中心,而哥白尼却证实了地球围绕太阳旋转。
2.“把头埋在沙里”的反对意见
机器思考的后果太可怕了,我们希望并且相信机器做不到这一点。
图灵认为,这种观点是赤裸裸的人类中心论。这种人类优越论的信念在知识阶层中特别普遍。他们认为思考对于他们来说更重要,更是人类不可剥夺的权利,觉得自己比其他生物或机器有优越性,不愿意承认、甚至不敢相信其他事物也具备思考的能力。图灵用胆小懦弱来形容这类人的品质,因为“该论点根本没有多大价值,不值得反驳,给一点安慰可能更恰当些”。
3.数学上的反对意见
数理逻辑的许多结果都可以用来证明:离散状态机器的能力是有限度的。这些结果中最著名的就是所谓的哥德尔定理,它表明,在任何适度丰富的逻辑系统中都可以形成一些陈述,它们在系统内部既不能被证明,也不能被证伪,除非是这种情况:系统本身不一致。……这一结果认为存在着这种机器做不到的某些事情。
图灵认为,这个反对意见的核心思想是机器本身是一个符号化的形式系统,既然如此,机器必然要陷入“哥德尔陷阱”,但对于人类而言却可以辨别出这类陷阱,即人类可以辨别机器内部那些不能被证明或证伪的命题是真的。
图灵反驳说:“虽然已经能够证明一台特定的机器有这种能力的缺陷,但没有证据能够表明,人类的智能没有这种能力的缺陷。”对于计算机而言,计算机是可操作的,都以某种程序输入,而这种程序就是一个形式系统,按照哥德尔定理,任何内容适度丰富的无矛盾的形式系统都是不完全的,因此计算机的功能是不完全的,而且本质上是不完全的。但图灵认为,计算机做不到的,人类也一样做不到,因为人类所建立的形式系统也是不完全的,所以人类并不比计算机优越。
4.有关意识的反对意见
按这种观点的极端的版本,确认一台机器能否思考的唯一办法就是变成这台机器,并感受到自己在思考。
图灵认为,这个反对意见实际上是“唯我论”的观点。图灵反驳道:“如果得知一个人能否思考的惟一方法就是变成这个特定的人,……那么思想交流便会发生困难。A倾向于认为‘A会思考,而B不会思考’,B却认为‘B会思考,而A不会思考’”。如此一来,人类之间的任何感觉和感受的交流都无法进行。出于对人类现实生活的尊重,我们还是认为人类可以交流,并且都可以思考。
5.有关能力缺陷的反对意见
就算你真的能够让一台机器完成你提到的所有那些事情,但是你绝不可能让一台机器做到X。这里X的特征很多,下面只是一部分:要仁慈、机智、漂亮、友好,有首创精神,有幽默感,能辨别是非,会犯错误,会坠入情网,爱吃草莓冰激凌……
图灵认为这个反对意见实际上建立在科学归纳法的原理上。因为人类还没有看到能够做这些事情的机器,所以就认为机器永远也不可能做到这些事情。图灵反驳道,尽管目前人类看到的机器又粗又笨,并且功能单一、目标有限,但对此人类不能下结论说机器只能有这样的简单功能,当计算机科学发展到一定阶段,人类自然可以看到具有X功能的机器。“对于这些批评机器不可能有丰富多彩的行为的说法,等于在说机器不可能有丰富的存储容量。……这些都有可能在不久的将来实现,而不是乌托邦式的梦想。”
6.洛夫莱斯夫人的反对意见
洛夫莱斯夫人在回忆录中写道:“分析机(Analytical Engine)无权说它创造出什么新的东西。它所能做的都是那些我们知道怎样命令它去执行的事情。”……洛夫莱斯夫人反对意见的另一种说法是,机器“从来不能做任何全新的事情”。……这种反对意见还有一种较好的说法:机器永远不会“使我们出乎意料”。
图灵反驳道,洛夫莱斯夫人只看到了一种特定分析机的特性,这种分析机只能按照既定的程序完成特定的任务,并不能根据复杂情况随机做出变化,她所了解的分析机并未使她相信其他的机器可以具有这些“创新”的特性。为此,图灵提出了“学习机器”的思想。图灵认为,既然直接编制成年人心灵(adult mind)的计算机程序困难较大,我们可以先试图编制模拟儿童心灵的程序。这个儿童心灵程序还需要和教育过程程序密切相关,这样就模拟了人类心灵成长的过程。它的初始状态比较简单,通过教育过程使它逐步达到相对复杂的成人思维。在教育过程中程序不但可以设计随机单元,而且程序还可以利用惩罚和奖励的因素调整人类智能行为的结果。在这种情况下,虽然人类在一定程度上能够预言计算机器的智能行为,但由于智能程序本身的随机性和变化特征,人类就无法预言其准确的行为结果,这样的智能程序给人类带来“惊喜”就是必然的,计算机器的行为结果将会“出乎人类意料”。
7.有关神经系统连续性的反对意见
神经系统肯定不是一台离散状态的机器。神经脉冲刺激神经元时,输入脉冲信号的微小偏差就可能造成输出脉冲大小的巨大变化。可以认为,如果这样,就不能指望用离散状态系统模仿神经系统的行为。
图灵承认,离散状态机与连续状态机肯定有所不同。但图灵论证道,即使他们有所不同,也并不影响模仿游戏的顺利进行,因为询问者根本无法从电传打印机输出的符号中辨认出离散状态机与连续状态机。这样的话,这两种机器的差异对于图灵测试毫无影响。
8.有关人类行为的非形式特征的反对意见
通过建立一组规则来说明一个人在所有情况下应该做什么,是无法办到的。
图灵将这个论点转述为:“如果每个人都有一套确定的制约他的生活的指导规则,人就并不比一台机器更强;但这样的规则是不存在的,所以人不可能是机器。”这个论点的核心是说,人的行为与机器的行为有本质的不同,机器也就无法模拟人的行为,更不能模拟人的思考,因此模仿游戏是无意义的。
对于该论点的反驳,图灵首先说明,我们应该区分人类行为中的“指导规则”(rules of conduct)和“行为规律”(laws of behavior)。“指导规则”是人们可以根据它来行动、也能意识到它的存在的规则,例如“看到红灯就停车”这样的条例;“行为规律”指的是人体中所表现出的自然规律,例如“你掐一下他,他就会尖叫”。图灵指出:“我们不能像认为完备的指导规则不存在一样,就简单地认为完备的行为规律也不存在。就我们所知,发现这种规律的惟一方法就是科学观察。”
因此,图灵得出结论,这种关于人类行为的非形式特征的假设是不成立的,也是未经证实的。诚然,我们还没有充分掌握人类的行为规律,但不能就此下结论说这样的规律不存在。只要我们承认“行为规律”之存在,我们就有能科学观察来发现它。一旦我们掌握了人类的行为规律,人类行为与机器行为之间的本质区别也就消失了。
9.有关超感知的反对意见
这个论点的核心是,如果模仿游戏中的询问者有所谓的超感官知觉,例如心灵感应、透视眼、预知未来、远距离致动等,那么任何事情都可能发生,这必然导致模仿游戏无效。如果超感知存在的话,图灵认为确实任何情况都有可能发生。此时进行图灵测试,就必须设计一种“超感功能屏蔽室”。
三、图灵测试的哲学之争
从上节的逐一考察可以看出,图灵本人对图灵测试可能遇到的诘难是有充分的思想准备的。自1950年以来,图灵测试激起了来自哲学、计算机科学、认知和神经心理学等多个不同领域学者的广泛而激烈的争论,赞成者有之,诘难者更有之。
关于图灵测试的哲学之争,并不仅仅局限在机器能否思考这个问题上。在机器能否思考这个问题的背后是图灵对人类思维之本质的刻画,或者说是图灵对人类智能的明确界定。半个多世纪以来,对图灵测试的诘难主要集中在如下三个层面:一、模拟的智能是否是真正的智能?二、智能必须以语言作为中介吗?语言行为是否足够覆盖智能的多样性?三、基于语句的判断和推理是否抓住了智能的本质?
1.模拟与复制
图灵测试是建立在模拟游戏的基础之上的,机器能够模拟人类的智能,是否表明机器就拥有智能呢?早在1964年,甘德森(Keith Gunderson)就表示过怀疑。按他的说法,虽然高仿真留声机可以迷惑人的耳朵,但它永远不是一个真正的乐队在演奏;同样,机器虽然可以做一些人类所做的事情,甚至比人类做得更好,但不能因此说明机器有智能。1972年,科尔比(Kenneth Colby)也提出了类似的观点。他认为,图灵的模拟游戏是有缺陷的和含糊的,比如“像女人”这个概念就是十分模糊的。此外,模拟游戏中没有指定当计算机能够模仿女人而不能够模仿男人会怎么样,计算机模仿女人就算成功,模仿男人就算不成功吗?
1980年,塞尔(John Searle)更明确指出,计算机模拟的火焰并不是真正燃烧,模拟的发动机并不能真正行驶,同样,模拟的理解并不是真正理解,模拟的智能并不是真正的智能。到了1990年代,科普兰(JackCopeland)细致区分了模拟(simulation)与复制(duplication)的含义。科普兰认为,一个男人即使模仿一个女人,他也还是男人。如果一个男人在模拟游戏中胜利,他只不过是成功地模仿了一个女人,但他明显不是一个女人。因此,模拟游戏不是一个足够好的测试,模拟的智能并不是真正的智能,这就好像仿真的钻石并不是一个真正的钻石一样。机器模拟人类的智能通过图灵测试,并不能说明机器具有真正的智能。科普兰认为,模拟实际上是指那种没有模拟事物的本质的情形,比如演员的装死,复制则是对事物本质的再现,比如人造碳就具有天然碳的本质属性。
按塞尔和科普兰的观点,模拟并不等于复制。对此,卡尔顿(Lawrence Carleton)反驳道,如果两个测试的输入和输出都相同的话,那么我们就可以认为是复制。计算机模拟火焰就不是复制,因为他们与真正的火焰没有相同的“输入和输出”,因此计算机模拟火焰就只能看成是模拟。但图灵测试和塞尔的中文屋都是输入和输出相同情况下的模拟测验,因此可以看成是复制。既然图灵测试不是表面化的模拟,而是对思维本质的再现,那么通过图灵测试的机器就应当被认为具备真正的智能。
2.语言与智能
在图灵测试所激起的广泛哲学争论中,第二个主题涉及语言媒介的作用,这是因为图灵测试中关于智能的定义是建立在语言交流的基础之上的。1968年,弗德(Fodor)就指出,鉴于图灵测试只能表现出人类智能的部分功能,特别是语言功能,通过图灵测试只能展示出机器只具备人类智能的部分功能。不过,这类争论实际上指向两个不同的方面,其一是语言之于智能是否是必要的,其二是语言之于智能是否是充分的。
对语言之必要性,科普兰明确表示过怀疑。科普兰(1993)认为,有些智能生物,比如黑猩猩、海豚和牙牙学语的幼儿,由于不具备语言功能,因此都会在测试中失败。如果这些智能生物都通不过图灵测试,那么我们推测可以思考的机器也可能通不过图灵测试。前面提到的弗德的观点实际上涉及语言的充分性问题,即语言是否能够展现人类智能的各个方面。按弗德的观点,图灵测试范围仅仅局限于人类对话的能力,因此不能作为通用的人类智能测试。
针对这类诘难,史蒂文森指出,图灵测试是一个全功能的测试。图灵测试所测试的是一种智能的二阶能力,这种能力预设了其他的各种能力,因此,图灵测试是一个全功能的测试,而不只是测试了机器的语言功能。稍后,丹尼特进一步指出,图灵测试是一个通用的测试,适用于测试人类的各种智能,实际上图灵测试测试了人类的许多智能行为,包括理解幽默、探讨政治问题和创作诗歌的能力。
更有力的反驳或许来自摩尔的论述。摩尔指出,语言能力足以用来归纳地推论出人类各方面的智能能力。人类可以根据逐步明朗的证据来逐步完善理论,但这不意味着人类必须收集完所有的证据才能做出结论。实际上,科学家们从未对已有的科学假设收集到所有的证据,但人类科学文明在不断地进步。认为图灵测试过于局限的观点,实际上是误认为图灵测试只是一个测试。图灵本人明确说过,图灵测试可以被广泛地运用到不同种类的测试,评判者可以要求测试机器的幽默能力、使用非母语的能力、或者其他各类能力。
3.智能的本质与塞尔的中文屋测试
图灵测试中关于人类智能的定义是建立在语句基础上的判断和推理。针对这一定义的诘难可以分为外在的和内在的两大类。外在的诘难认为这个定义不够宽广;内部的诘难则认为,即使采用这个定义,也不能得出智能概念。
其实,外在的诘难图灵本人早就预料到了。所有这些诘难,在某种程度上都是老调重弹,其要点包括:图灵测试是行为主义和操作主义的;意识(consciousness)与思维是密不可分的;内省(introspection)是人类思维的本质特征。比如,布洛克就认为,图灵测试仅仅关注人类的外部行为(externalbehavior),不能算作一个合理的智能测试。按照他的观点,机器的智能实际来自设计者,这些所谓的智能机器只能随声附和。一个人如果下棋时仅仅复制其他大师的棋谱而取得胜利,那他根本就不是大师;同样,一个能对话的机器也只不过是在重复程序员所编制的程序中的对话内容,这个机器不能被认为是智能的。仅仅关注人类的输入输出的能力会误导我们对智能的认识。
这类外部诘难实质上沿用的是心理学上反对行为主义的古老策略,即重新引入内省、意识、甚至潜意识来看待智能,持这类观点的哲学家包括卡雷利斯(Karelis 1986)、里奇拉克(Rychlak 1991)和米切尔(Michie 1996)等。卡雷利斯强调,意识是思考的本质。无论一个事物的行为特征有多么复杂或灵巧,也不能被认为是可以思考的,除非它有意识。图灵没有指明意识和思考是否就是一回事,抑或是机器通过测试后是否就具备了意识。里奇拉克进而强调,内省是人类智能不可或缺的特征,但图灵测试并没有表现出内省的特点。因此机器即使通过了图灵测试,我们也不能说它具有智能。更进一步,米切尔强调,人类智能与潜意识密切相关。仅仅通过语言测试来判断机器是否能思考是不够的,因为我们潜意识中的一些语言现象在模拟游戏中也无法测试出来。
如果说以上这些诘难,图灵不仅是充分认识到了,并且是有意排除在智能定义之外的话,塞尔所提出的内在诘难,多少出乎图灵本人的预料,并且对图灵测试概念提出了强有力的挑战。塞尔对图灵测试的反驳,主要基于其著名的中文屋实验。
塞尔(Searle 1980)的中文屋实验是一个思想实验,其基本设想是:假设我(塞尔)被锁在一间屋子里,并给了我一大批中文文本;而且,假定我对中文一窍不通(事实也是如此),既不会写也不会说,甚至我也没有把握,在辨认中文文本时能否把中文文本同日文文本或无意义的曲线区分开来。对我来说,中文文本和许多无意义的曲线简直一模一样。再假定,在第一批中文文本之后,接着又给了我第二批中文脚本,并带有一套规则,使第二批与第一批发生联系。规则是用英文写的,我和其他英文为母语的人一样是理解这些规则的。用这些规则,我可以把一组形式符号与另一组形式符号联系起来,这里“形式”的意思只是说,我根据这些符号的形状就完全可以确认它们。现在,假定又给了我第三批中文符号,同时还有一些仍是英文的指令,这些指令使我可以把第三批的文本同前两批联系起来,并指示我怎样传回某种特定形状的中文符号,作为对第三批中送给我的那些特定形状符号的响应。根据此思想实验,在塞尔回答中文问题时,屋子外的观察者会认为塞尔对中文问题的回答将与中文母语的人的回答毫无差别。凡是看过塞尔回答的人,根本不会知道塞尔一个中文字也讲不了。但是根据这个实验的设定,塞尔根本不懂中文但正确回答了问题,对懂得中文的人来说,塞尔的行为就是一台计算机,塞尔就是例示了一个计算机程序,计算机程序根本不理解中文。塞尔由此得出结论:图灵测试中机器根本不理解回答的问题,机器根本没有思考,机器也没有智能。
塞尔的中文屋测试可以说是针对图灵测试的最重要的一个反驳意见。自塞尔提出中文屋测试之后,相关的哲学争论迄今仍在延续,这里我们只提一下巴莱希(Barresi 1987)的观点。巴莱希基于塞尔的理想实验,进一步探讨了语法和语义的问题。他认为,纯句法特征的机器可以通过图灵测试,但是没有自然语义的话,这样的机器永远不能具备人类的常识。人类的语言,并不单纯是一个满足句法要求的形式系统,而是具有丰富结构的语义系统。人类语言的语义特征是人类互动和人类文明传承的根本保证。
四、图灵测试与人工智能的发展
尽管《计算机器与智能》一文被普遍认为是人工智能的开篇之作,关于图灵测试对于人工智能这门学科60年来的发展所起的作用,学界的看法并不一致。我们不妨先来看看否定性的意见。
早在1970年代初,迈尔泽(Bernard N.Meltzer)就指出,图灵测试是在引诱人工智能领域的研究者去完成一个被误导的目标,让他们以为只有对话才是实现人工智能的途径。他认为,这个目标是独断的、专横的和狭隘的。人工智能研究者应该首先致力于多样化的具体目标,比如模式识别和求解微分方程等,只有实现这些目标之后才能逐步去实现一个人工智能系统。
到了1990年代,不少学者都表达了与迈尔泽类似的观点。比如,谢伯(Stuart Shieber)就认为图灵测试干扰了丰富而有魅力的人工智能研究。哈纳德(Harnad)也认为图灵测试只关注人类行为的某个方面(语言能力),从而限制了人工智能研究的目标。海耶斯(P. Hayes)和福特(K. Ford)虽然承认图灵测试的历史意义,但也仅止于承认其历史意义。在他们看来,“图灵测试在人工智能起始时是有着历史意义的,但当今已经成为人工智能领域的包袱……我们应该拒绝使用图灵测试,应该找到更成熟的方法来描述人工智能的目标。在今日,图灵测试只能放入到教科书中了。”
1996年,惠特比(Blay Whitby)在总结人工智能的发展史时也认为图灵测试应当载入史册了。按惠特比的论述,人工智能的发展经历了4个阶段。在第1阶段(1950—1966),图灵测试为人工智能领域带来了灵感的源泉;在第2阶段(1966—1973),它给人工智能研究的前沿领域带来了困扰;进入第3阶段(1973—1990),图灵测试主要是给哲学领域带来了困扰,对人工智能领域的困扰反而少些;到第4阶段(1990—),图灵测试应该被载入史册了。
惠特比这样划分的理由是不难理解的。第1个阶段是计算机科学发展的初始阶段,图灵测试所展现的人工智能这一宏大远景,对计算机算法的研究和计算机硬件的发展提出了更高的要求。在第2个阶段,计算机硬件的发展和计算机软件的开发严重错位,人工智能的发展只能局限于模式识别这类非常有限的目标上,人类几乎看不到计算机通过图灵测试的任何希望。第3个阶段是计算机科学飞速发展并广泛应用于各行各业的阶段,人工智能领域的专家大都满足于具体而丰富的有限目标,有关图灵测试的讨论成了哲学家争论的话题。到第4个阶段,许多人工智能专家似乎已经不再关注图灵测试这类几乎不可能完成的目标了。
然而并非所有的学者都认同图灵测试应载入史册的论点。弗伦奇(Robert M.French)相信,若干世纪之后图灵测试依然具有重要的意义;萨金(Ayse Pinar Saygin)在《图灵测试:50年之后》一文中说,再过50年还会有人来写《图灵测试:一百年之后》(TuringTest 100 Years Later);摩尔不仅强调我们不能放弃图灵测试,还相信图灵的预言会在将来成为现实。对图灵测试持肯定观点的作家还有库伯(Kevin L.Copple)。他认为,图灵测试是人工智能领域中一个十分有意义的实践尝试,它有助于科学家们深入研究人类的行为表现和人类的互动行为,从而逐步实现“更好的人工智能”(better AI),而不是空谈的和学究式的“真正的人工智能”(true AI)。
虽然迄今为止,让计算机通过图灵测试还是一个难以企及的目标,但这一事实并未磨灭人工智能专家的雄心。1991年,纽约慈善家勒伯纳(Hugh Loebner)设立了一个以其名字命名的竞赛奖项(Loebner Prize Competition),专门用于奖励每年一度的图灵测试竞赛的优胜者,冠军的奖金额度为100000美元。勒伯纳竞赛如今已成为人工智能领域的盛会,每年都有人工智能领域最顶尖的专家前来参赛。竞赛的项目就是图灵测试,看谁带来的机器最具备人类智能的特征,谁的机器与人类的反应最难区别。起初的竞赛是限制主题的图灵测试(Restricted Turing Test),例如只限制于数学主题、体育主题和政治主题等。1995年之后,这类限制被取消了,参赛者可以准备任意方面的主题。2008年,计算机埃尔伯特(Elbot)获得了该年度的勒布纳铜奖(金奖和银奖落空)。当年10月底,在英国雷丁大学(Reading University)进行的决赛中,埃尔伯特以文本对话的方式和12位经过严格挑选的测试员交谈,结果有3位测试员认为它是一位真人,“一位真实的、健谈的人”。人工智能看来真的站在了与人类一样思考的门槛上了。
与埃尔伯特相比,1997年战胜国际象棋大师卡斯帕罗夫的计算机“深蓝”(Deep Blue)算不得真正的人工智能,因为它的特点在于逻辑和运算,但并不机智和“狡黠”。埃尔伯特令人惊异的地方在于它的幽默和敏感,而且能够主导对话。在勒布纳奖的最后测试中,埃尔伯特还用调侃的方式暗示自己就是机器人,这导致一些测试员认定这是一位志愿者故意的误导行为,从而将埃尔伯特判断为人类:
“你吃过早餐了么?”测试员问。
“是的。但我错误地把牛奶倒在了我的早餐上,结果还没吃,它们就上锈了——我原本应该倒油的。”埃尔伯特回答说。
从埃尔伯特表现来看,能够通过图灵测试的机器已经为期不远了。
结语
从1950年图灵《计算机器与智能》一文的发表到2008年智能机器埃尔伯特的诞生,近60年来关于图灵测试的争论几乎从未间歇。对于图灵测试所激起的广泛而持久的争论,图灵本人是有充分预见的。在其1950年的经典论文中,图灵就设想过9个方面的可能反对意见,并且逐一作了辩驳。
尽管如此,图灵所做的辩驳并不能完全令人信服,其所预见的诘难也不能涵盖所有可能的反对意见。60年来,关于图灵测试的哲学争论主要集中在语言、思维和模拟3个方面:智能是否必须以语言为基础?基于语言的判断和推理是否把握了智能的本质?模拟的智能是否是真正的智能?关于这些问题,图灵的预见和论证并不充分。
对图灵测试最有力的反驳来自塞尔的中文屋测试。该测试所蕴含的哲学推论是:模拟的智能仅仅是掌握了形式系统的语法规则,并没有真正理解自然语言的丰富语义,因此即使机器能够通过图灵测试,也不能说它具备人类智能。图灵本人在某种程度上预见到了这类诘难,即他的“数学上的反对意见”,不过他没有分辨语法与语义。智能的本质是否就在于掌握语义?将来的机器,比如图灵所设想的学习机,也不能掌握语义吗?无疑,关于图灵测试的哲学争论还将持续下去。
图灵1950年的经典论文被公认为是人工智能学科兴起的标志。不过,关于图灵测试对于人工智能的发展意义,在不同的历史阶段人们的认识有所不同。大体说来,1950—1960年代,图灵测试被普遍认为是人工智能领域的灵感源泉;1970—1980年代,它确实给人工智能领域的前沿研究带来了某种程度的困扰;1990年之后,图灵测试虽然不被认为是人工智能的终极目标,但已经成为该领域研究中不可或缺的课题。1990年代的那种认为图灵测试应该尘封史册的论点,已经被随后的发展所否定。以通过图灵测试为目标的勒伯纳竞赛,如今已成为人工智能界的盛事。
图灵测试本质上是对人类智能的一种操作性定义。人类思维的本质是一个古老的哲学问题。图灵对这一问题的界定虽然不一定精准,但至少将散漫的争论导向一个明晰的目标。无论通过图灵测试的机器是否真正具备人类的智能,这类智能机的研制不仅有着实用意义,同时也在向我们常识中的智能概念提出挑战。(节选自宋勇刚《图灵测试:哲学争论及历史地位》,原载于《科学文化评论》2011年第6期。现标题为责编所拟)
《中国历史评论》编辑部选编
本期责编:李 萌
热门跟贴