各路大佬纷纷给 AGI 立下“最后期限”，27 岁创始人已经给 AI 准备好「人类最终测试」！|agi|埃隆_马斯克|库兹韦尔|神经网络|算法|超级智能

作者 | Eric Harrington

出品丨AI 科技大本营（ID：rgznai100）

这几天，X 上的网友们整理出来一张图，总结了 AI 圈的各种名人对 AGI 实现时间的预测：

这几天，X 上的网友们整理出来一张图，总结了 AI 圈的各种名人对 AGI 实现时间的预测：

OpenAI 创始人兼首席执行官 Sam Altman 曾表示对 2025 年实现 AGI 充满期待。这句话的最早出处现在已经很难找到了——因为他几乎每次采访都会说一遍。以至于 OpenAI 的新任产品官现在也对这个时间深信不疑，可以回顾我们之前整理的《》。
埃隆·马斯克（Elon Musk），SpaceX 创始人、X 公司首席执行官……哦不对，现在应该叫他“效率部马部长”。总之，马斯克曾经预测过，最迟到 2026 年就会出现 AGI，他在推特上偶尔也会复述这个观点。比如最近一次，就是马斯克在直播肝《暗黑破坏神 4》榜一的时候“顺便”提到的。

Anthropic 创始人 Dario Amodei 对 AGI 这个词本身持怀疑态度，但根据目前的趋势，他预计 AGI 将在 2026 年实现。近期，我们也整理过《》一文，欢迎回顾。
《奇点临近》作者、未来学家雷·库兹韦尔（Ray Kurzweil）在 1999 年预测 AGI 将于 2029 年实现。这个二十五年前的预测其实非常的激进，因为库兹韦尔当年还说“2030 年之后，人类将逐渐永生”——相比之下，AGI 都不算什么了。
顺带一提，在 2017 年美国的 SXSW 大会上，库兹韦尔还对这个预测做出了一个更精准的描述：“到 2029 年，计算机将拥有与人类同等水平的智能，这会导致计算机拥有人类智能，我们将它们放入我们的大脑，将它们连接到云端，扩展我们的能力——这不仅仅是未来的场景。它已经存在，而且会加速发展。”
人称“AI 教父”的图灵奖得主 Geoffery Hinton 同时也是今年的诺贝尔物理学奖得主。关于他的预测我其实没有找到像图里一样准确到 2029 年的描述，而是翻到了以下言论：

这句话是针对“人工智能超越人类智能”的时间，Hinton 以前的预测是“30-50 年”，而他去年的时候改口，说变成了“5-20 年，但不太有把握”。Hinton 还说，我们生活在一个非常不确定的时代。他关于数字智能超越我们的预测可能完全错误，没有人真正知道答案，而这就是我们现在应该担心的原因。
最后便是今年的诺贝尔化学奖得主，DeepMind 创始人、谷歌 DeepMind 首席执行官 Demis Hassabis。他认为 AGI 大约需要 10 年时间，且还需要 2 到 3 项重大创新。今年在各种播客上，Demis 其实都强调过“十年实现 AGI”这个观点。

此图一出，自然是引起了 X 上一片哗然，网友们的主要观点分为：1、Sam Altman 又在炒作了；2、Altman 和马斯克都在炒作，科学家是对的；3、前四个人全都在炒作，只有两位诺贝尔奖得主是对的；4、图上这六个人全都在炒作（……）

毕竟放在前几年，库兹韦尔关于“2029 年实现超越人类智能”的观点还被称作不切实际。结果没过多久，库兹韦尔反而变成了“保守派”，让人啼笑皆非。

此外，预测过 AGI 时间点的名人自然不止有这几位。评论区有人指出，NVIDIA 创始人兼首席执行官黄仁勋今年在斯坦福大学的经济论坛上就提出过一个引人注目的观点：“AI 将在五年内通过人类测试。”

掐指一算，那不就是 2029 年吗？看来黄仁勋和库兹韦尔一样，是“保守派”。

今天，我们在Scale AI 创始人 Alexandr Wang的最新演讲内容中也发现了类似的观点，而他的说法则比较奇特：“由于 AI 基准测试已经趋于饱和，Scale AI 正在与 AI 安全中心合作，进行人类的最后考试——有史以来最难的测试——一旦 AI 通过考试，我们基本上就拥有了 AGI！”

这个就很有意思了。不用等个五年十年，只要通过【有史以来最难的测试】，AI 就能变成 AGI？

首先了解一下背景，看看这话的可信度有多少：Scale AI 可不是一般的公司 —— 这是一家把“给 AI 模型提供训练数据”做到估值 138 亿美元的独角兽，创始人 Alexandr Wang 是 27 岁的美籍华裔，因为这一手生意誉为“下一个扎克伯格（Meta 首席执行官、Facebook 创始人）”。

说到小扎，他倒是没有给过 AGI 的确切时间，而是在以前的采访经常表示 Meta 会先把 AGI 给做出来：“到今年年底，Meta 将拥有超过 340,000 个 Nvidia 的 H100 GPU……我们已经建立了这样（实现 AGI）的能力，其规模可能比任何其他公司都要大。”

言归正传，Scale AI 不只满足于做“数据工厂”，在 Alexandr Wang 看来，通往 AGI 的道路上最大的瓶颈就是数据，而他要做的就是确保“在达到 GPT-10 之类的模型的过程中，我们不应该受到数据的限制”。

以下是 Alexandr Wang 的演讲内容，看看这位 27 岁的亿万富翁，要如何给 AI 举办“人类最后的考试”：

我们的算力已经停滞了一段时间？

我认为，对 AI 行业内的很多人来说，我们显然已经站在了 AGI 或 ASI（随你怎么称呼）的门槛上。这项技术正在变得非常强大，而且会很快变得更加强大。所以我们想趁此机会回顾一下现状。接下来，我们会深入探讨每个具体话题。

我的父母都是洛斯阿拉莫斯国家实验室的科学家。我认为，这是最后一个具有这种技术浪潮特征的重大项目。核武器是一项非常先进的技术，人们在当时并不知道它是否真的可行。在路径明朗之前，原子弹就是这种带有推测性的东西。它对国家安全和地缘政治有着非常重要的影响，同时也引发了许多关键的伦理问题——而现在，关于 AI 这项技术，也有很多重大问题悬而未决。

我曾翻阅过曼哈顿计划的科学家们的各种引述。其中奥本海默的两句话特别引人注目。“这是一个深刻而必然的真理：科学中的深层发现并非因其有用而被发现。它们被发现是因为有可能被发现。当你看到某样技术上诱人的东西时，你会继续做下去，只有在取得技术成功之后，你才会争论该怎么处理它。原子弹就是这样的。”

这些话在用于思考当今的 AI 时特别贴切。

回顾现代 AI 的历史，最初的深度神经网络，没人真正想到它最终会发展成这些非常强大的 AI 系统。虽然现在关于 AI 安全的讨论很多，但我们已经走到了这一步（指前面类比的“要不要完成核武”的这一步）。我们所处的位置就是这里。我们正站在这项极其强大的技术的门槛上，面对着如何恰当驾驭它的诸多悬而未决的问题。为了理解这一点，也许我们有必要先从宏观角度看看作为一项技术的 AI。

众所周知，AI 由三大支柱构成——算力、数据和算法。这三大支柱共同推动了我们所看到的所有 AI 进步。AI 作为一项技术有一个很酷的特点，这也使得它不太可能像核聚变等其他重大技术那样容易陷入瓶颈：这三大支柱中任何一个的进步都会推动 AI 这项终极技术向前发展。增加算力会推动 AI 进步，数据创新会推动 AI 进步，算法创新也会推动 AI 进步。我认为，OpenAI o1 就是最近的一个很好的例子。但实际上，我们在算力方面已经停滞了一段时间了——你没听错，算力已经相对停滞了一段时间。

但是算法的突破意味着你可以得到性能显著提升的模型。这种“三大支柱中任一进步都能推动技术发展”的普遍范式，正是这一点让我觉得，从现在开始就将是 AI 的“永恒盛夏”（对标以前漫长的“AI 寒冬”）。而且说实话，新模型出现的速度确实惊人。我们 Scale AI 的工作之一是评估新模型，但要跟上所有新发布的大语言模型的节奏，真的很困难。

砸钱的阶段结束了，接下来才该开始拼创新！

2012 年，人类实现了第一个真正意义上的大规模深度神经网络，就是为 ImageNet 训练的 AlexNet。相比现在的标准，2012 年到 2018 年的日子看起来颇有田园牧歌的感觉。那时候偶尔会有一个大模型出现，然后所有人都在大型会议上讨论它——现在呢？每一场会议结束后就会冒出 20 多个模型，各种优秀的开源模型、多模态模型、优秀的图像模型、视频模型和新的推理模型如潮水般涌现。

所以为了帮助理解，我喜欢把现代 AI 时代分为三个主要阶段：第一个阶段是研究阶段，大约从 2012 年持续到 2018 年。也就是从第一个深度神经网络 AlexNet 开始，它最初是用来做基本的图像识别的。那是一个 AI 只能告诉你 YouTube 视频里有没有猫的时代，而这在当时已经是一项令人难以置信的强大功能了。

一直到第一个 GPT 模型出现，也就是由 OpenAI 的 Alec Radford 训练的 Transformer 和所谓的 GPT-1（当时只叫“GPT”，没有写“1”）。这开启了下一个阶段：规模化（Scaling）。

所以，头六年，2012 年到 2018 年，是研究阶段。然后从 2018 年到 2024 年，也就是今天，是规模化阶段。在这段时期，投入到这些模型的资源增长了一万多倍。去年，或者说今年，投入到训练这些模型的总资金大约是 2000 亿美元。这带来了性能的巨大提升。我们从默默无闻的 GPT-1，发展到了现在在数学和计算机科学领域达到博士水平的 o1 模型。

而 o1，我认为它开启了新阶段——创新时代（innovation era），这个阶段将持续到超级智能出现为止。我们将拭目以待这需要六年还是更短的时间。这个阶段的标志是，大家已经在模型上投入了 2000 亿美元，而事实上大公司都无法投入比这更多的资金了。我们不可能在模型上投入 200 万亿美元。所以从数量级来说，能继续规模化的空间已经很有限了。投钱的工作结束了，才会真正需要相应的创新来配合。增强推理能力和测试时计算能力肯定是其中之一。我们认为可能还需要其他几项创新，才能让我们达到超级智能。

说到这里，我想不要脸地插播一下——我觉得 Scale AI 很幸运，能够真正助力这些惊人的进步。回顾计算机视觉和图像识别时代，我们很自豪能与许多大型自动驾驶项目合作，现在已经取得了成果——Waymo 的 L4 级自动驾驶汽车已经在旧金山街头行驶，这是一个相当了不起的里程碑。显然，我们也与 OpenAI 和许多实验室合作，参与了这些模型的整个发展过程。从 GPT-2 上的首次 RLHF（人类反馈的强化学习）实验，一直到现在极其强大的推理模型和智能体模型等等。

为了让未来的发展更加具体，我接下来将一一列举，通向超级智能的道路上的四大挑战。

人类有史以来最难的测试……

挑战一是数据瓶颈。这个问题在六个月前可能被炒得最热，但确实是个真实的问题。基本上，我们在某个时候就会用完所有可用于训练这些模型的公开数据。Epic AI 估计这个时间点在 2027 年到 2030 年之间。如果你和业内人士交流，他们会说比这更早。那么我们该怎么办？好消息是，我们还有主动权。让我谈一谈几个主要的解决方案。

我们认为突破数据瓶颈需要前沿数据，这是一个包罗万象的主题，包括各种形式的合成数据，以及更高级的数据类型，还有企业数据，这些数据类型能让我们更有效地学习高级概念，比如推理能力、多模态、智能体数据。此外具身智能以及其需要的现实数据将是一个重要领域，后文会展开讨论这点。总之，绝大多数数据仍然是私有和专有的，是被锁起来的。

比如说，GPT-4 的训练数据集大约是 0.5 PB。而摩根大通的专有数据集，超过了 150 PB。他们只是众多大企业中的一个。还有大量的数据就干躺在那里，从未被用于任何主要的训练。

第二个挑战与评估有关。这是 AI 界经常讨论但其他人可能不太理解其重要性的问题。评估是我们用来衡量这些模型进步的标尺和激励机制。所以现在评估既过拟合又饱和的事实——所谓过拟合，是指它们有点被玩明白了，而饱和是指模型在所有评估上都已经做得很好了——这些都是大问题。这些问题可能会导致研究变得更加漫无目标。因此，建立正确的评估体系非常重要。

我们之前有一个叫做 GSM1K 的研究结果，我们发现许多模型实际上在某些开源评估上明显过拟合。这是一个很严重的问题。如果没有这个标准，就很难衡量进步。另一个问题是基准测试正在饱和。如果你看过去几年的 MMU、数学、GPQA 等测试，模型的表现似乎达到了瓶颈。但这并不是因为模型没有变得更好，而是因为这些评估已经不够难了。

在 Scale AI，我们做了两件事。首先，我们与 AI 安全中心的 Dan Hendricks 合作开发了一个叫做“人类最后的考试”的评估。我们正在从每个研究领域收集超难的研究问题，目的是创造人类有史以来最难的考试。我们认为，如果这个测试被解决了，且达到了饱和，我们可能基本上就实现了通用人工智能。所以我们可以期待这一天的到来。

此外，我们还构建了所有的 SEAL 评估，即私人专家评估，用来测试这些模型的全部能力。这是一个我们特别想寻求合作的领域，它可以真正规划出如何衡量这些模型的超级高级能力。

第三个挑战是，尽管智能体（Agent）是每个人都在谈论的东西，但它们还没有真正出现，也不够可靠。这些自主 AI 智能体与自动驾驶汽车的 L1 到 L5 进阶过程有很强的相似性。这个类比非常贴切：L1 可能就是一个聊天机器人，L2 是一个你可以寻求各种帮助的助手。然后我们正在探索从 L3 到 L5 自主性这条有趣的路径。比方说，L3 智能体自主性可能是指能够用于工作流程特定部分的智能体，你可以开始把它们用作可以开始依赖的工具。L4 自主性可能会颠覆这一点。

所以，即使是在 L3 和 L5 之间的路径，我们认为进一步细分也很重要。在这个挑战中，我们认为有一些必要条件，或者说前进的路径：

一、让模型在每个领域都具备推理能力。这些模型的高级推理能力最终将在基本上每个领域都能发挥作用。现在，它们在数学和物理领域表现得很好，最终将扩展到所有领域。这将会带来——这将成为经济价值的巨大驱动力。因此，每个领域都将具备高级推理能力。
二、能够实现远程操作智能体的基础设施。这实际上是我们在 Scale AI 特别关注的事情。设想一下：在未来，当你有这些能做大多数事情但可能偶尔会遇到难题的智能体时，它们该如何与人类互动？它们该如何向人类求助？我认为这样说一点都不夸张：在未来，我们大多数人可能就只是 AI 智能体的远程操作员，而不是其他什么角色。所以，这是技术路径中的一个关键步骤。

然后就是显而易见的主线任务：更好的强化学习以及新的数据类型，最终将推动这些模型把“能动性”变成一项核心能力。

挑战四——显然，芯片和能源是一个很大的瓶颈。我认为，对未来五年为这些数据中心供能所需的能源的一个非常保守的估计是 100 吉瓦。也许这个估计甚至远远不够，但这相当于 20 个芝加哥市的能源消耗，需要投入数万亿美元的资本支出。所以这显然是一个巨大的挑战。在这里我没有解决方案，只是指出这个挑战。

最后，让我分享几个令人振奋的 AI 发展前景。

第一，显然是具身智能和机器人技术。我觉得马斯克的发布会很酷。它显而易见地展示了一个事实：让机器人胜任各种体力工作的目标是可以实现的。更好的说法是，我们可以让这些模型能够长时间思考来解决极其困难的问题，比如治愈癌症，或者解决千禧年数学难题。

第二，是AI 研究员智能体的出现——能够真正担当 AI 研究工作的模型。这个目标需要多久才能实现？没人说得准。但我认为，这将是我们见证的第一个真正的 AI 自我进化形式，它必将成为模型发展历程中的关键转折点。让我们回顾一下：在前方等待着我们的，是一个个激动人心的技术里程碑，是无数令人振奋的机遇。

但要实现这些愿景，我们还有很多工作要做。我们需要突破计算和能源基础设施的瓶颈，需要攻克前沿数据的难题，需要解锁私有数据源的潜力，需要建立更有挑战性的评估基准。当然，还有大量 AI 政策问题亟待解决。最后，我要说，我们正身处人类历史上最激动人心的时期。这次演讲的核心就是：我们每个人都是这个伟大项目的参与者，让我们携手共进，用正确的方式推动超级智能的发展。

参考链接：https://www.youtube.com/watch?v=eRYP2arKkk0