打开网易新闻 查看精彩图片

打开网易新闻 查看精彩图片

文 _ 顾凡及(复旦大学生命科学学院)

聊天机器人近年异军突起。问它问题,似乎无所不知;要它做文案工作,几乎无所不能。人们惊呼人工智能即将赶超人类智能,对人类构成前所未有的威胁。这或许是当下最受关注的一个开放问题,但既然是开放问题,自然就还没有定论。本文试图梳理几位人工智能科学家和脑科学家对这个问题的种种看法,这些观点有相当的代表性,且言之有据又不尽相同,甚至在某些问题上针锋相对。笔者自然不敢狂妄自居裁判,只是扼要地摆出他们的观点和论据,少数地方加上笔者个人的思考,目的是抛砖引玉,引起读者的思考。

2024年底,人工智能“三教父”之一的辛顿(Geoffrey Hinton)在接受采访时说:“就短期而言,我担心的是网络攻击和生物武器。……在中期,我担心就业问题和自主致命性武器。从长远来看,我最担心这些人工智能系统变得比我们更聪明,最终取代我们。”[1]

另一位“教父”杨立昆(Yann LeCun)则认为,现在的人工智能甚至还没达到“猫类智能”:“……实际上,绝大多数人工智能研究人员都更认同我,而不是那些担心巨大风险的人的观点。只是那些担心存在风险的人的声量更大,或者说他们当中有一部分人更喜欢危言耸听。辛顿或许不是这样,但其中一些人确实如此。坦白讲,人们害怕什么就说什么,写耸人听闻的东西更容易吸引读者。如果你说一切安好,反而很难让人信服。”[2]

打开网易新闻 查看精彩图片

辛顿。图片来自utoronto.ca

然而仅在几年之前,辛顿还认为人工智能不可能在50—100年内超越人类智能,但是有两件事使他改变了观点。

首先,他曾考虑是否需要构建像脑一样的模拟系统以实现低能耗的人工智能,但当他把脑的“模拟智能”和数字计算机上实现的“数字智能”进行比较时,他认识到由于电子器件处理和传输数据的速度要比神经元快得多,一台机器能够“学到”的知识要比个人多得多。另外,由于数字信号是精确的,机器可以精准复制,一台机器学到的知识(表现为权重和梯度)可以拷贝到其他有同样结构的机器上,由此学到不同知识的数字机器可以平均它们的权重和梯度,从而分享各自学到的知识,这样数字机器就可能学到所有现存的电子文本,这是一个人即使活一万年也做不到的。

其次,一个人也不可能把自己学到的知识原封不动地拷贝给另一个人,而只能通过缓慢的肉体通信(如说话)来改变另一个人脑中的突触强度,这个过程非常缓慢,而且会漏掉大量“不可言传”的知识。也正因为此,数字智能可以永生,但模拟智能如人类智能一样不可能永生,一旦承载其智能的系统崩坏/肉体死亡,智能也就随之而去而ChatGPT的巨大成功也出乎他的意料,使他认为数字智能比模拟智能更强。

此外,辛顿认为真正的智能体必然会产生自己的目标,并可能不受人类的控制,因此近年他大声疾呼人工智能的危险性,并呼吁投入大量资金研究人工智能的安全问题,为此他甚至退出了谷歌,以便可以自由发声。

打开网易新闻 查看精彩图片

杨立昆。图片来自nyu.edu

杨立昆认为,现在最走红的人工智能(大语言模型)不要说和人类智能相比,连“猫类智能”都不如。猫具有他所认为的“智能四要素”——物理世界的内心模型、持久的记忆、一定的推理能力和计划能力,这些特性都是语言大模型不具备的。他喜欢举的一个人类智能的例子是,一个10岁小孩都知道应该怎样收拾餐桌,而现在还没有任何智能机器人能做到这一点;另一个例子是,一个17岁的孩子经过20个小时的培训就能学会开车,而“自动驾驶汽车”虽然被投喂了海量的实际行驶数据,却至今未能真正达到L5级别(完全自动驾驶级别)——现在的汽车厂商都已把曾一度吹嘘的“无人驾驶”改为“辅助驾驶”。各种“日常琐事”在实验条件下演示一下是容易的,但是真的要付诸日用,难免百密一疏,碰到训练时没想到的“长尾事件”,人工智能就更不知所措了;而人总能根据以往的经验随机应变,通过类比采取尽可能好的应对措施,虽然也不能保证百分之百成功。

针对数字智能可以阅读远比个人一生能读的多得多的文本这一论点,杨立昆强调:虽然从语言文本上来说,情况确实如此,但一个4岁小孩出生以来在醒着时接收到的视觉信息量就要远超现在所有互联网上的文本信息,更不要说他还会接收到听觉、触觉、嗅觉等其他信息。动物和人在出生后首先通过这些观察,然后进一步通过互动,能接收到远比聊天机器人仅从语言文本上接收到的多得多的信息。这也是为什么动物和人具备“智能四要素”,而聊天机器人不具备。由于现在的巨型语言模型几乎已经耗尽互联网上的文本信息以作训练之用,所以按原有路线进一步提升其智能水平的空间已经非常有限。

杨立昆又指出,人们曾经以为语言是智能皇冠上的明珠,因为只有人才有语言,但其实语言比较简单,因为它是一维、离散且元素有限的,这才使人可以根据前文预测后词的概率;而对于高维、连续且后续场景有无穷可能性的视觉景象,就没法在像素水平上做概率预测,而需要另辟他径。

打开网易新闻 查看精彩图片

李飞飞。图片来自网络

在人工智能不能限于大语言模型这一点上,李飞飞和杨立昆观点一致。除了“语言智能”,她还提倡研究“空间智能”。按照她的定义,空间智能是“理解、推理、生成和与三维世界互动的能力”[3]。她特别强调“互动”,认为智能的真正重要之处不在于思考,更在于运用思想采取行动,以适应环境变化。

那么,如何看待他们的不同意见呢?笔者以为,就人类已有的书面知识来说,辛顿的话是有道理的,当下我们可能在世界上再也找不到一位比大语言模型更博学的“博学家”,但是其博学程度总归还是受到训练它的数据的限制:它不仅做不到“言人之所未言,想人之所未想”,更没有像达尔文或爱因斯坦那样的创造性思维,如果不接入互联网,甚至回答不了有关最新事态的问题。大语言模型所知虽广,但仍受限于训练数据集。

所以,尽管大语言模型式的人工智能在绝大多数问题上,仅从书面知识上来说,可能足以“碾压”绝大多数人类个体——辛顿的论证在这方面是成立的,但是当前大语言模型的智能还不可能超越人类全体的智能,因为它的知识都只来自人类已经创造出来的知识,它自己并无创造性。

以上三位人工智能科学家的论点针对的都是大语言模型,但是大语言模型只是深度学习的一个子领域,深度学习则是联结主义人工智能的一个子领域,而联结主义人工智能也只是人工智能的一个子领域,还有一个曾风光无两,但是在深度学习兴起后黯然无光的符号主义人工智能。杨立昆批评大语言模型缺乏长期记忆和推理能力,这一论点虽然没错,但是长期记忆和推理能力却是符号主义人工智能的强项。这两大主义未必一定互斥,现在已有一些科学家正在考虑将两派思想互补,开创出新一代人工智能。

让我们回过头来,再度思考人工智能能否达到人类智能水平。笔者以为,仅从逻辑上来说,无法绝对排除这种可能性。因为人脑归根到底只是某种物理系统,它能实现人类智能,就证明有适当组织的物理系统是可以实现人类智能的,类似数学中的“存在性定理”。可惜的是,这种“存在性定理”并非构造性的,也即它没有告诉我们怎样做才能构造出这样的系统。所以在笔者看来,也很难预测究竟在什么时候才能做到这一点,但是可以说,有很大的概率总有一天会做到这一点。

认为人是“天之骄子”的思想根深蒂固,人们总是会举出一些人能做到而机器做不到的例子,总想在人类智能和机器智能之间划条界线:一开始是“人能计算而机器不能”,但是这条界线早就破防;后来是“人能证明数学定理而机器不能”,但是明斯基(Marvin Lee Minsky)和王浩等人先后用计算机把罗素的数学巨著《数学原理》中的定理证明了个遍;再后来是“机器在国际象棋上战胜不了人类顶级棋手”,然而计算机“深蓝”一战而胜国际象棋世界冠军卡斯帕洛夫(Garry Kasparov);然后又说“还要几十年机器才能战胜围棋世界冠军”,但是这一预言又很快破产……这条界线在不断后移,说人能做到而机器不能的领域正在不断缩小。在笔者看来,这条界线总有一天会消失,但很难预言何时会消失。

现在让我们来看看这条界线当今在哪里吧!由于人类智能和人工智能(其实就是机器智能)的界线与人脑(一种模拟系统)和数字智能机器的区分关系非常密切,所以下文将不会对二者做严格区分。

打开网易新闻 查看精彩图片

计算机与人脑

[美] 冯·诺依曼

北京大学出版社 2010

数字计算机之父冯 · 诺依曼(John von Neumann)在其遗作《计算机与人脑》[4]中强调,他所发明的计算机是一种数字系统,而人脑是一种模拟系统或模拟—数字系统。神经元传输信号只在离散的发放脉冲时刻才消耗能量,在没有脉冲时不消耗能量。相比之下,计算机为了保证信号传输的精确性,必须维持足够大的代表0和1的电压差,且在每次电压反转时都要消耗比较多的能量。这也是造成当前“数字智能”能耗居高不下、制约大语言模型规模进一步扩大的根本瓶颈之一。另外,在数字计算机中存储器和处理器是分离的,信息在这两者之间的频繁交换也要消耗大量能量,而脑内没有存储器与处理器之分。正因如此,人脑的能耗只有二三十瓦,而要仿真人脑神经元同等规模的人工神经网络,能耗可能是人脑的100万倍。但是即便如此,这仍不意味着后者就可以执行人脑的所有功能。

一言以蔽之:脑是一种模拟系统,是高度节能的,而数字计算机(包括现在的绝大多数的智能机器)是一种数字系统,高度耗能。当然,现在有些科学家也在开展仿照人脑的节能研究,研发通过发放脉冲传输信息,并把处理器和存储器集成在一块芯片上的所谓“神经形态系统”。这样可比传统计算机仿真减少四个数量级的能耗,但是相较人脑依然是能耗大户。并且,如果要用这种系统构建大语言模型也会碰到实质性的困难,例如很难在这样的大模型上采用传统人工神经网络应用的标准反向误差传播算法[5]。

以上所列都是对脑有了解的信息科学家的看法,下面我们再来看看有数理背景的神经科学大师们的一些观点。

打开网易新闻 查看精彩图片

意识的宇宙

[美] 杰拉尔德·埃德尔曼、[美] 朱利欧·托诺尼

上海科学技术出版社 2019

诺贝尔生理学或医学奖得主埃德尔曼(Gerald Edelman)在其2000年出版的《意识的宇宙》[6]一书的“脑不是计算机”一节中,专门论述了脑和计算机的差别。现在过了差不多1/4个世纪,重读他当时的论述,这条界线虽在某些方面略有后退,但是他所讲的主要差别依然成立:

(1)人脑通过各种感官感觉环境,从各种不同信号(多模态信号,如光信号、声信号、机械刺激信号、化学信号等)中归结出一些模式来分类,和脑内部存在的有关外部世界的模型进行匹配,做出预测并采取行动。实际上,杨立昆和李飞飞都在朝这个方向努力,但是还没有实现重大突破,特别是在如何建立和不断更新外部世界的内部模型方面。

(2)脑中有一些特殊的有弥散性投射的核团——价值系统。这个系统会向整个神经系统发出信号,通知遇到了突发事件,它也会影响突触强度的变化。现在有些深度学习神经网络,如AlphaZero等,除了具备执行行动的网络,还有一个评估网络,会对每步动作的价值进行评估,可以看作朝这个方向努力的一步。

(3)脑是一种选择性系统,而非计算系统。脑中的几十亿个联结都不是精确的。从最精细的尺度上来看,没有任何两个脑是一样的,即使同卵双胞胎的脑也不完全一样。虽然可以用同样的话来描述不同脑的某个特定脑区总体上的联结模式,但是脑在神经元的最精细部分上的微观差别是巨大的,这种千差万别也使得每个脑都独一无二。脑是进化出来的,而非设计出来的。笔者认为,进化无须考虑“成本”(无论是时间还是金钱),也根本不要求“标准化”,反而更依赖多样化,从而遵循优胜劣汰的原则;而工程师在设计机器时,成本和标准化都是其必须考虑的因素。

(4)脑的物理结构本身也在动态变化。一天过后,同一个脑中的某些突触联结不大可能精确地维持不变;某些细胞会收缩它们的突起,另一些会长出新的突起,还有某些会死掉,这一切都有赖于这个脑所经历的特定历史。随之而来的个体差异并不只是噪声或误差,它们会影响我们记忆事情的方式。这也是脑能够适应将来可能发生的无数不可预测事件并对其起反应的关键因素。现在还没有哪一种人造机器在设计时会把这种个体的多样性和动态变化作为一条主要原则来加以考虑。

(5)脑内相互联结的区域之间不断进行着并行信号的递归性相互交换,这些相互交换在时空维度上不断地协调着各区域中相互映射区的活动。这种相互交换和反馈不一样,它有许多并行的双向通道,并且没有特别的指令性误差函数。埃德尔曼把这种并行的双向联结称为“复馈”。他认为复馈是分布在许多不同功能区的不同神经元群的活动得以大范围同步的基础,而这种同步又是知觉过程和运动过程整合的基础。复馈使得知觉和行为得以统一。在笔者看来,也正是复馈使得我们难以用科学传统上所使用的基于线性因果链之上的还原论策略,去研究脑包括智能在内的高级功能的神经机制—这种复馈使得通过复馈联结的不同脑区互为因果,这样的因果关系就成了“循环因果关系”,而非传统的线性因果链。

打开网易新闻 查看精彩图片

脑机革命

[巴西] 米格尔·尼科莱利斯

浙江教育出版社 2023

脑机接口先驱尼可莱利斯(Miguel Nicolelis)在其新作《脑机革命》(

The True Creator of Everything
) [7] 中专门花了一章的篇幅来说明用硅芯片重构人脑“完全没有成功的可能性:现在没有,以后也不会有”,其原因也是脑是一种模拟系统,而现在的智能机器都是数字系统。尼可莱利斯指出:“在图灵机中,信息的表示是形式化的,即抽象的,以句法形式呈现的,而不像大多数生物系统那样是物理的,以语义形式组织起来的……描述大脑功能的丰富动态语义不能被还原为数字计算机所采用的有限的算法语法。这是因为涌现同时在大脑物理组织的不同层次发生,涉及数十亿个自下而上和自上而下的互动事件的精准协调……”最后这句话的意思也是讲,这里起作用的是循环因果关系。

“机械装置是根据预先准备的计划或智能蓝图而设计建造的,因此涉及计算机模拟和逆向工程;生物体的出现是从分子到整个生物体的多个组织层面发生的大量进化步骤共同作用的结果,这些步骤不依照任何事先建立的计划或智能蓝图,而通过一系列随机事件执行。因此,生物体与它们的环境密切相关。在考虑生物体内的信息流时,独立于物质基质或非实体信息的概念不再适用。在大脑中,……一系列不同的生物组织层都参与了信息流的处理。此外,生物体产生的信息会不断修改产生信息的物质基质。……我们无法对从未被设计过的东西进行逆向工程。”

“人的心智活动不能被还原为运行算法的数字系统。”尼可莱利斯举例称,人们认为自己的母亲和女儿是“美”的,但是无法把“美”形式化。其实,不仅是“美”这样的抽象认知,所有只能意会不可言传的主观体验特性(qualia,如中国国旗让我产生了“红”这一主观体验是别人无法分享的,一位红绿色盲对中国国旗颜色的主观体验也肯定和我不同,但是我们都无法让对方知道自己的确切体验是什么)或感受(feeling,如外国人对皮蛋的嫌恶感是我所无法共情的)都无法形式化。我想在可预见的未来,也不会有任何数字机器能体验到它们。确实,当前的AI系统并没有真正的意识和情感,而人类不仅可以处理信息,还拥有意识、情感和主观体验,这些都是人脑智能的重要组成部分。笔者以为,尼可莱利斯所讲的不能还原性,也是因为人的心智活动发生在循环因果关系主导的复杂网络中,脑并没有明显的单向层次结构,可以逐层向下还原。

打开网易新闻 查看精彩图片

精准学习

[法] 斯坦尼斯拉斯·迪昂

浙江教育出版社 2023

另一位熟谙信息技术的脑科学大家德阿纳(Stanislas Dehaene)[8],在近作《精准学习》(

How We Learn
) [9] 中也用大量篇幅讨论了这一问题,甚至其中一小节的标题就是“人工智能缺少了什么”。在他的论述中,除了前面几位科学家提到过的方面,还包括下列差别:

(1)机器没能高效地利用数据,而人脑能利用少量数据进行学习;深度学习进行的是大样本学习,而人脑能进行小样本甚至单样本学习。这一点几乎已成共识,不过辛顿对此提出异议,认为这样的比较有点像拿一位人工智能的“初生婴儿”去和麻省理工学院(MIT)的博士生进行比较。事实上,一个经过大数据训练的大语言模型也能进一步在很少数据的训练(微调)之下学会新知识。

(2)社会学习。人类是唯一会主动分享信息的物种,我们通过语言向其他人学习,从小脱离人类社会的狼孩的智能无论从哪个方面来看都更接近于狼而非人。

(3)人脑能够从具体事例当中发现普遍规律,而深度学习算法几乎无法进行任何深刻的思考。

打开网易新闻 查看精彩图片

陶威尔教授的头颅

[苏] A.别利亚耶夫

科学技术出版社 1959

除了上述脑科学大师们的论述,目前在人类智能和机器智能领域还有一个热点问题,那就是具身智能。人脑要维持正常的智能,必须依托身体,且这个身体须能与丰富的环境主动交互。以前有些科幻小说,如苏联科幻作品《陶威尔教授的头颅》,设想通过灌流营养液维持人脑的正常思维。实际上,这种设想是不可能实现的,且不说身首分离,即使脑袋依然长在身体上,如果剥夺了对环境的主动探索,也不能维持正常的智能。有科学家做过这样的实验:平时把两只小猫养在黑暗的环境中,每天只有三个小时让它们见光,科学家制作了一个大圆筒建筑,中间有一个大转杆,杆的一端有个座椅,有一只小猫总是作为“乘客”固定在这个座椅上被动地观看,另一端则让另一只小猫总是作为“车夫”拉动转杆转动。虽然这两只小猫看到的景色是完全一样的,但经过长期训练后,作为“车夫”的小猫的视觉是正常的,作为“乘客”的小猫却没有深度感知。

现在的人工智能都还像“陶威尔教授的头颅”,没有具身智能,不会主动探索和动态交互,更缺乏社会智能。但是如果让智能机器人成群结队,形成某种“社会”,那么又将如何?虽然说这话似乎为时尚早,但是从原则上来说这并非全无可能。

总之,原则上我们不能完全排除人工智能有朝一日会全面赶上人类智能,但是由于两者在实现上存在巨大差异,笔者以为这一天不会很快到来。至于说“超过”,我们必须把具体能力和元能力[10]区分开来。在许多具体能力上,人工智能早已超越人类,例如下棋。但是人工智能的元能力是由设计者给定的,因此大概率不会超过人类。此外,人工智能也不可能在各个方面都和人类智能一样。例如,即使人工智能拥有机器人的身体,但是这个身体也和人体完全不同;即使智能机器人可以聚集成群,这个群体也不会和人类社会一样。人工智能当然是受人类智能启发的产物,但是不必也不可能拷贝人类智能。人类智能和人工智能各有所长,也各有所短,在可预见的将来,两者依然是一种互补的关系。

[1] KBS DOCUMENTARY. AI Pioneer Geoffrey Hinton on the Future of AI in 10 years丨The Great Transiton[N/OL]. KBS Documentary, (2024-11-09) [2025-11-20]. https://www.youtube.com/watch?v=SN-BISKo2lE.

[2] 智能乌鸦. 图灵奖得主杨立昆: 大语言模型是通往AGI的一条歧路[Z/OL].“硅基观察Pro”微信公众号, (2024-04-24)[2025-11-20].

https://mp.weixin.qq.com/s/onM7L-m_C9HLTX3FoLvIsQ.

[3] CHM LIVE. Fei-Fei Li's AI Journey[N/OL]. Computer History Museum, (2024-09-17)[2025-11-20]. https://www.youtube.com/watch?v=JgQ1FJ_wow8&t=611s.

[4] 冯·诺依曼. 计算机与人脑[M]. 甘子玉, 译. 北京: 商务印书馆, 2001.

[5] 反向误差传播算法是训练人工神经网络的基石。它本质上是利用链式法则计算损失函数对网络参数的梯度, 将输出层计算出的误差“反向”逐层传递回输入层, 从而根据梯度下降的方向调整每个神经元的权重, 以最小化预测值与真实值之间的差异。当反向传播试图应用链式法则计算梯度时, 由于神经形态系统中所用的激活函数的导数为0, 导致计算出的梯度也为0。这就意味着误差信息无法传回网络, 权重也就无法得到更新, 网络无法进行“学习”。虽然现在也有科学家在尝试使用某些近似方法回避这一问题, 但依然存在一些困难。

[6] 埃德尔曼, 托诺尼. 意识的宇宙: 物质如何变为精神[M]. 顾凡及, 译. 上海: 上海科学技术出版社, 2019.

[7] 尼可莱利斯. 脑机革命[M]. 程致远, 张胜男, 杨锦陈, 译. 杭州: 浙江教育出版社, 2023.

[8] 多译为“迪昂”, 不过按新华社主编的《世界人名翻译大辞典》, 依照法语发音应译为“德阿纳”。

[9] 迪昂. 精准学习[M]. 周加仙, 译. 杭州: 浙江教育出版社, 2023.

[10] 所谓元能力就是产生具体能力的能力。一般说来, 元能力是先天的, 而具体能力是由先天的元能力和后天经验共同决定的。

(原载于《信睿周报》第161期)