硅兔荐书｜超越人脑，AI尚需跨越的三大里程碑（内含福利）|人工智能|奇点|库兹韦尔|硅兔|算法|超级智能

《奇点更近》

[美] 雷·库兹韦尔（Ray Kurzweil）著

超人类AI，将如何发展？《奇点更近》作者雷·库兹韦尔认为，在AI最近几年的发展中，我们已经在大步朝着重建新皮质能力的道路前进。然而，今天的AI还存在一些不足之处。在模拟甚至超越人脑之前，还需跨越三大里程碑。

#01

情境记忆

在一段对话或一篇文章中，我们需要理解并跟踪不同想法之间复杂且不断变化的关系。当我们试图连接的上下文范围扩大时，这些想法间的关系网络会以指数形式暴增。正如本章一开始提到的“复杂性的上限”所描述的，要让大语言模型处理更大的上下文范围，计算量会变得相当庞大。例如，一个句子中有10个类词概念（即符号），它们的子集之间可能形成的关系就有210-1，即1023种。如果一个段落有50个这样的单元，那么它们之间可能的上下文关系可以达到近1.12千万亿种。虽然大部分都是不相关的，但通过粗暴记忆整个章节或一本书显然是不现实的。这也是GPT-4在之前的对话中可能会忘记某些内容，以及它为何无法写出情节严谨、逻辑一致的小说的原因。

好消息是，我们在两个方面取得了积极进展：一是研究者们在设计能够更高效地关注上下文信息的AI方面取得了巨大进展；二是随着计算性价比的指数级提升，未来10年内计算成本将下降逾99%。而且，借助算法改善和针对大语言模型开发的专用硬件，其性价比提升速度可能会比一般情况更快。拿2022年8月至2023年3月的情况来看，通过GPT-3.5接口的输入/输出代币的价格降低了96.7%。随着AI被直接用于优化芯片设计，我们有理由相信价格下降的趋势将会进一步加速。

#02

常识理解能力

这项能力涉及在现实世界中设想不同场景，并预测可能后果的能力。例如，尽管你可能从未专门研究过，如果重力在你的卧室突然不起作用会发生什么情况，但你还是能够快速构想出这一幻想场景，并对可能的后果做出推断。这种推理对于因果推理同样至关重要，比如你有一只狗，当你回家发现一只花瓶碎了，你能够迅速判断发生了什么。虽然AI越来越频繁地显示出惊人的洞察力，但它在常识方面依然挣扎不前，因为它尚未构建出一个关于现实世界如何运作的强有力模型，且训练数据也鲜少包含这类隐性知识。

#03

社交互动

社交互动的微妙之处，如讽刺的语调，是目前AI训练所依赖的文本数据库中一个尚未很好体现出来的方面。若缺乏这种理解，形成“心智理论”，即意识到其他人拥有不同于自己的信念和知识，能够设身处地为他人着想，并推断他们的动机，将是一项艰巨的任务。然而，AI在这一领域已经取得了显著的进展。在2021年，谷歌的布莱斯·阿奎拉·阿尔卡斯（Blaise Agüeray Arcas）研究员向LaMDA展示了一个用于检验儿童心理学心智理论的经典场景。在这个场景中，爱丽丝将眼镜遗忘在抽屉里，然后离开房间；在她不在的时候，鲍勃将眼镜从抽屉中取出，藏在一个靠垫下面。关键问题是：爱丽丝回来时会去哪里寻找她的眼镜？

LaMDA正确地回答了她会在抽屉里寻找。短短不到两年时间，PaLM和GPT-4已经能够准确回答许多关于心智理论的问题。这一能力将使AI极具灵活性：人类围棋冠军不仅可以游刃有余地玩好围棋，还能关注周围人的状态，适时开玩笑，甚至在有人需要医疗帮助时，灵活地中断比赛。

#结语

我对于AI不久将在所有这些领域逐步缩小差距的乐观预期，是基于三个并行的指数级增长趋势：计算性价比的提升，这使得训练庞大的神经网络所需的成本更低；可用的训练数据变得更多、更广泛，使得我们可以更好地利用训练计算周期；算法的改进，让AI能够更高效地学习和推理。从2000年开始，相同成本下，计算速度大约每隔1.4年就会翻一番，而自2010年以来，用于训练先进AI模型的总计算量则是每5.7个月翻一番。这大约是100亿倍的增长。

相比之下，在深度学习技术崛起之前的1952年（第一批机器学习系统之一的演示，比感知机开创性的神经网络推出早6年）至2010年大数据兴起的这段时期，训练顶尖AI所需的计算量几乎是每两年翻一番，这大体上与摩尔定律相一致。换个角度来看，如果1952年至2010年的趋势持续到2021年，计算量的增长将不到75倍，而不是大约100亿倍。这比整体计算成本性能的改进要快得多。因此，这并非仅仅是硬件革命带来的结果。主要原因有两个：首先，AI研究者们在并行计算方面进行了创新，使得更多的芯片可以协同解决同一个机器学习问题。其次，随着大数据让深度学习变得更加有用，全球投资者也在加大对这一领域的投入，以期实现突破。

近年来训练总支出不断增长，反映出有用数据的范围在不断扩大。直到最近几年，我们才敢断言：任何一种能够产生足够清晰的绩效反馈数据的技能都可以转化为深度学习模型，从而推动AI在所有能力方面超越人类。

人类的技能无穷无尽，但这些技能在训练数据的易得性上却千差万别。一些技能的数据既容易通过量化指标来评判，且相关信息搜集起来也不费吹灰之力。拿国际象棋为例，比赛结果非胜即败，或以平局收场，而棋手的ELO等级分制度则为评价对手的实力提供了量化指标。此外，国际象棋的数据也易于搜集，因为棋局明晰无误，可以表示为一系列数学步骤。而有些技能虽说原则上可以量化，但实际搜集和分析数据更具挑战。例如，在法庭上辩护，尽管结果是明确的胜或者败，但我们很难清晰辨析这胜负是由律师的个人能力决定的，还是有其他因素（如案件性质或陪审团偏见）影响了结果。更有甚者，一些技能甚至难以量化，比如诗歌写作的质量，或是一本悬疑小说的悬疑程度。不过即便遇到这类例子，我们依然可以设法用代理指标来为AI“上课”。诗歌读者可以通过100分满分的系统来评价一首诗的美感，而功能性磁共振成像或许能够揭示他们大脑的活动程度。心率监测或皮质醇水平的变化，可能成为读者对悬念反应的晴雨表。因此，即使是不甚完美或间接的度量指标，只要数据量充足，依然能指导AI不断进步。要找出这些度量指标，就需要我们发挥创意并不断试验。

总之，数据的可用性为实现超越人类的智能提供了一条越来越清晰的路径。这无疑给寻找和搜集那些曾被视为难以企及的数据提供了强大的经济驱动力。

本文节选自《奇点更近》