硅兔荐书｜故事、骰子和会思考的石头（内含福利）|人工智能|大模型|硅兔|计算机|骰子

‍ ‍

关注的人，领先不止一步

本文节选自《故事、骰子和会思考的石头》，2024年8月由中译出版社出版。

第一台完全晶体管化的计算机于 1954 年问世。两年后，达特茅斯学院的助理教授、28 岁的约翰·麦卡锡（John McCarthy）创造了“人工智能”（AI）这个术语，并在某个夏季召集了一群计算机科学家进行了一项研究——“如何让机器使用语言，诠释抽象和概念，以及解决只有人类才能解决的各种问题”。

我发现他们可太天真了。在一个夏天就能创造人工智能？在1956 年？但仔细想想，他们的乐观并非没有道理。人们已经发现了简单的科学定律，可以解释物理学、光子学、磁学、热力学和量子力学中大量可观察到的现象。我们有充分的理由希望，智能也可以从一些简单的定律中产生。但事实证明并非如此。智能复杂至极，以至于我们仍然无法理解它，甚至无法就它的定义达成一致。

鉴于此，人工智能没有正式的定义也就不足为奇了。甚至对于它在何种意义上是人为的，人们也没有达成共识。之所以如此描述，是因为我们创造了它，而不是自然智能吗？还是因为它不是真正的智能，就像人造花不是真正的花一样？麦卡锡自己也后悔创造了这个词，觉得它为机器设定了过高的标准。

人工智能意味着两个不相关的东西

当人们使用 AI 这个词时，有两种不同的含义，它们没有任何共同之处。但由于人们对两者的区别不甚了解，所以笼统的术语 AI被用来描述它们两者，这引起了很多困惑，就像“双周”（biweekly）可以表示“每周两次”或“每隔一周”（每两周）。因此，当你读到有关你的垃圾邮件过滤器中的 AI 变得更加高效的标题，以及另一个有关 AI 如何接管世界并奴役我们所有人的标题时，你会情不自禁地开始对自己的垃圾邮件过滤器抱有某种不信任的态度。但在这些情况下，人工智能意味着两个不相关的东西。

“奴役我们”意义上的人工智能的反乌托邦概念被称为“通用人工智能”。它是一个程序，可以做任何人类在认知上能做的事情。它具有创造力，可以自学新事物。没有人知道如何构建它，甚至不知道它是否可能存在。

我曾经主持过一个 AI 播客，其间我问了我的大约 100 位嘉宾中的大多数人，他们都是 AI 领域的主要思想家，问他们是否认为通用 AI 是可能的，如果是，我们什么时候能实现它。只有三位嘉宾说这是不可能的。顺便说一句，我碰巧同意这三个人的观点。在相信我们可以构建通用人工智能的绝大多数人中，对从现在起我们需要多长时间才能实现人工智能的估计范围从 5 年到 500 年不等。通常情况下，估计的时间都是 20 年左右，但“通用AI”这个术语出现已经超过 20 年，现在已经有 70 年了。

图源：Expleo

事情就是这样。那些相信我们可以制造通用 AI 的数以百计的人工智能专家都会 100% 同意我们目前不知道如何做到这一点。这就是为什么不同的科学家提出了各种各样的可能性，试图确定我们什么时候能够制造出一个通用的 AI。那么，如果没有人知道如何制造它，为什么每个人都如此相信我们能做到这一点呢？我也会向他们提出这个问题，我总是得到不同版本的相似答案：“具有通用智能的机器是可能的，因为人类就是具有通用智能的机器。”

那些渴望看到建立通用 AI 的人是一种宗教的一部分，其追随者正试图建立一个神。据他们说，通用 AI 这种神将是无所不知的。哦，仁慈的——通用 AI 将是一位仁慈的神，它将授予虔诚的信徒永恒的生命，要么通过他们的肉体不断更新，要么通过一种形而上学的结合，将意识上传到机器中，在那里他们将永远生活在天堂的和谐中。他们相信世界末日，他们称之为“奇点”的伟大天启，他们相信它就在眼前。而这一切都基于一个神圣的信条：人是机器。

其他人也相信同样的信条，但他们担心我们正在建立的神不会是仁慈的。也许它将远超我们，就像我们对待蚂蚁一样，也许它会以漠不关心的冷漠态度对待我们。或者更糟的是，上帝会将我们视为寄生虫，浪费稀缺的资源，或者像害虫一样侵扰它的世界，或作为一种危险的病毒。哪一个都无所谓，因为它们中的任何一个都需要消灭，而上帝可以很容易地做到这一点。

通用 AI 对许多人来说是一个如此可怕的概念，其原因是，我们以前曾在电影中看到过它做过可怕的事情。事实上，我们不止一次看到过这种类型的电影，这使我们经常做一些叫作“从虚构的证据中推理”的事情。我这样做过。我有时会发现自己在想：“这完全可能发生，我以前见过这种情况。”但后来我想起我以前在哪里看过它：去年夏天在电影院，以及之前的那个夏天。不要误会我的意思，我很喜欢看复仇者与流氓 AI 奥创的战斗，但这并不意味着它是真实的，甚至不意味着它比《不可思议的浩克》（Incredible Hulk）更可能发生。这只是另一个可怕的童话故事，就像我们第一次发现自己置身于一个我们尚未完全理解的变化世界时所讲述的那种故事。

我们是机器吗？

这是一个大问题，它关系到我们共同的命运。如果我们是，那么我的播客嘉宾是正确的：最终我们将建立一个机械思维，它将不间断地越发强大。如果我们不是机器，那么人类将永远保持卓越，至少在这个星球上是这样。我在世界各地发表演讲时，经常问我的听众是否相信自己是机器，通常约有 15% 的听众举手。这样脱节的答案令人震惊：我采访的 97% 的人工智能专家认为他们是机器，而只有 15% 的公众认为他们自己是机器。

这个问题的答案很简单——我们要么是，要么不是。但是，我认为，我们是机器的信念从根本上是有害的，因为它破坏了人权的基础，即作为人类，无论你的优点、财富或能力如何，有一些如此非凡、超然和独特的东西会立即赋予你特殊地位。但是，如果我们只是机器，那么杀死一个人就具有与关闭笔记本电脑电源相同的道德特征。这两者有什么不同？

很少有研究小组在致力创造一种通用的 AI。我只希望我知道的组织可以认真创造它。绝大部分的钱都花在了第二种 AI 上。好消息是，在我们探索和掌握未来的过程中，我们根本不需要通用 AI，因此我们可以搁置哲学辩论，只关注另一种 AI，狭义 AI，它是一种我们已经广泛使用的工具。这是一种完全不同的技术。狭义的 AI 是可以执行单个认知任务的计算机程序。示例包括垃圾邮件过滤器、GPS 导航和了解你对温度偏好的恒温器。我们开发狭义 AI 的方法（我从现在开始将其称为 AI）已经经历了三个不同的阶段。

第一个阶段是尝试在计算机中对世界的某个特定方面进行建模。例如如果你想让 AI 玩井字游戏，你就需要编写一个体现该游戏的 AI，按照人类玩家的思维方式编写策略。这是一种简单的方法，但它只适用于最简单的任务。

第二个阶段也就是所谓的专家系统。有了这些，你会找到世界上最好的井字游戏玩家并说：“对于 9 个可能的第一步中的每一个，你会如何回应？”然后，对于每个响应，再次询问专家他们会做什么。这种方法在一些地方很方便，比如工业，在这些地方问题很明确，选择有限。你可能会注意到，这两种阶段都受到我们人类理解水平的限制，与第三种阶段不同。

第三种阶段是我们将要探索的方法，因为它是我们现在使用 AI 预测未来的方式。它被称为“机器学习”。对于井字游戏程序的机器学习方法是教会计算机游戏规则，但不教它策略，然后让计算机自己玩数百万次，以此教授自己最好的游戏方式。

图源：Medium

机器学习是我们今天进行绝大多数人工智能的方式。要教计算机如何识别猫的照片，你给它数千张猫的照片及数千张其他内容的照片，然后开始向它展示新的照片，问它是不是一只猫，并告诉它判断是对还是错。随着时间的推移，计算机会了解猫的样子。

毫无疑问，你一定见过这种情况——甚至也曾参与其中。多年前，网站用于确保你不是机器人的测试要求你从模糊或缺少像素的图像中输入一些文本。你是帮助一家公司训练人工智能光学字符识别程序的志愿者。然后，几年后，测试发生了变化。你会看到路边数字的照片，并通过破译那些你花费时间来帮助培训某些公司的 AI读取街道地址的数字。现在还有第三个测试，要求你找到照片中所有停车标志或人行横道。当你这样做时，你是在为训练一些企业的自动驾驶汽车免费工作。

为什么这一切都需要人类？因为人类进行模式匹配的能力远远超过了计算机。如果你在一个雾蒙蒙的早晨，在远处发现一个朋友从你身边走开，你仍然可以从他们步态的一些细微的特征中认出他们，或者只是瞥见他们的后脑勺就认出他们来。太棒了。此外，你可以看到一个新物体——这是你以前从未见过的东西——然后可以立即从照片中挑选出它，即使它大部分是模糊的。可以给孩子看一张猫的照片，甚至是一张猫的画，然后让孩子一整天挑选猫的图片。如果孩子碰巧看到一只马恩岛猫，他们可能会说：“看，一只没有尾巴的小猫。”尽管他们从未被告知有这样的东西存在，因为他们有这样一种与生俱来的模式匹配能力，以至于他们可以感知我们都可以识别但无法解释的“猫”的一些微妙特征。

没有人知道为什么我们如此擅长模式匹配或我们如何做到这一点。我可以给你看一幅外星人的画，只有一张画，即使它背对着你或者趴着，你也能在照片中找到它。你可以在水彩画中发现它，或者在黑白电影中发现它，或者即使它被渲染为婴儿或老人时识别它。所有这些都来自一幅甚至根本不存在的生物画。

迁移学习

我们能做到这一点的部分原因是另一件事，我们确实擅长这件事，计算机却一点儿也不懂：迁移学习，即我们从一个领域获取知识并将其应用于另一个领域。我们知道以某种方式掌握的技巧，哪些可以转移，哪些不能转移。

如果我们不能把这些事情做得这么好，我们讲故事的天性可能永远不会进化。故事之所以有效，是因为我们能够识别其中的模式，并且可以使用迁移学习将它们应用于其他事物。《狼来了》的故事并不是那么有趣，除非我们可以将它与类似的情况联系起来，而这些情况中没有一个涉及男孩、哭泣或狼。如果说有什么区别的话，那么就是我们的模式匹配能力太好了。

我们在云中看到动物的形状，在吐司上看到面孔。理查德·加里奥特（Richard Garriott）在他的《探索/创造》（Explore/Create）一书中描述了自己的角色扮演游戏《网络创世纪》（Ultima Online）的创作过程。一个微不足道的，几乎是一次性的功能是，如果你厌倦了史诗般的探索，你可以拿起一根钓鱼竿，在水中放下一根线，里面放满了“看起来很普通的鱼”，你可以有 50% 的可能钓到。无论你是否钓到鱼，这都只是一次简单的抛硬币而已。仅此而已。

图源：TechTalks

计算机的模式匹配与我们完全不同。我们很聪明，但它们不是。它们完全依靠蛮力。它们拍摄所有猫和非猫的照片，并将照片分解成微小的像素块。它们查看所有的两像素组合和三像素组合，等等。每个像素都被分配了一个与其颜色相对应的数字，所有猫的照片中的数十亿个簇对计算机来说都是猫的微小照片。输入一张新照片，计算机会将其切成小块，并将它们与它庞大的其他小块数据库进行比较。任何两个像素可能是猫，也可能不是猫，计算机对这个问题的最佳猜测可能只有 50.001% 的准确率，但它每秒可以进行数十亿次计算的事实意味着它通过更加努力地工作可以获得更高的置信度，而不是更聪明。大数定律和中心极限定理都是现代机器学习的支柱。

这台机器不知道猫长什么样，甚至不知道猫是什么，但它只根据猫的数学模型就能更好地发现猫。计算机从不说某物是猫或者不是猫，它只是返回一个介于 0 和 1 之间的值，说明它是猫的可能性有多大。它涉及与掷骰子和掷硬币相同的基本计算。因此，所有的机器学习都是概率性的。帕斯卡和费马不会对这种数学产生困惑。他们发明了概率论。他们无法理解的是这一切的规模。但平心而论，这也超出了我们的理解范围。

当计算机准确地说某物是猫时，我们自然会假设它会像我们一样通过了解猫的样子得出这个结论。但事实并非如此。如果你将计算机进行的计算打印出来，你会发现那只是一堆恰好能够识别猫的数字。人类和机器模式匹配方式之间的这种根本区别就是为什么人工智能中的“可解释性”如此困难。“为什么人工智能会认为这是一只猫”这个问题真的不能用语言回答。在识别猫时，缺乏可解释性并不是什么大问题，但对于贷款申请来说，这是一个大问题，尤其是对于刚刚被拒绝抵押贷款的人，因为计算机说他们可能会违约，但无法给出得出这个结论的任何可理解的理由。

我说了这么多，只是为了指出计算机在看照片时不会想：“我很确定那是一只猫，看那些尖尖的耳朵。”事实上，计算机根本就没有思考。它只是比较一堆与像素簇颜色相关的 1 和 0。它只不过是一个花哨的发条时钟。

目前人工智能的瓶颈在于清理数据，然后告诉人工智能它所做的事物中什么是对的，什么是错的。我们的梦想是一种叫作无监督学习者的东西，只要你指向互联网，它就会在没有人类说“对、错、错、对、对”100 万次的情况下把事情弄明白。然而，我们距离拥有它还有很长的路要走，没有人完全确定如何构建它——甚至没有人确定能否构建它。