打开网易新闻 查看精彩图片

新智元报道

编辑:KingHZ

【新智元导读】Epoch AI高级研究员预测:2030年实现人类水平的AI的可能性至少10%。他认为AI从监督学习到GenAI,模型范式转变迅捷,预测AI只能从第一性原理出发。参考人类大脑,他估算了发现人类水平的AI需要的算力,得到相关结论。

AGI已经来了?还是快来了?还是说AGI也是一种「技术乌托邦」?

对于AI的能力,到底该如何预测? AGI带给人类的是「祝福」还是「诅咒」?

最近,Epoch AI高级研究员Ege Erdil论证了如何预测AI的能力:

1) 基于当前AI能力的外推预测:通常在估计AI在已具备基础能力的任务上的进展速度时更可靠。

2)第一性原理推理:在预测AI尚无法完成或只能极其勉强完成的任务时,往往更加准确。

结合两种方法,他认为到2030年实现人类智力水平的AI可能性至少10%,乐观估计为20%。

此外,由于AI未来带来的经济收益主要来源于它目前尚未掌握的任务,如果仅仅依赖第一种外推法,那么极有可能严重低估AI未来的发展速度、广度以及影响力。

打开网易新闻 查看精彩图片

预测AI也得讲道理

在尝试预测AI系统未来的能力及其将带来的经济和社会影响时,通常有两种不同的方法:

1)回顾过去以及事物变化的速度,然后尝试将现在的情况外推到未来。 这种方法倾向于分析过去的数据和趋势来推测未来的走向

2)基于第一性原理推理,考虑人脑的能力和资源使用情况、不同领域的训练数据的可用性、获取不同任务的奖励信号的成本等,以估计自动化任务的难度。 这种方法更加理论化,它依赖于对基本事实的理解来进行逻辑推理

这两种方法代表了预测AI能力的两种根本不同的方式。

第一种方法更常被经济学家所青睐,因为它依赖于历史数据和趋势分析,便于理解和应用。

而第二种方法则更适合用于深入探讨技术可行性及其限制,提供了关于AI发展可能遇到的技术障碍的洞察。

每种方法都有其独特的优势和局限,在实践中可能会结合使用以获得更全面的视角。

采用第一种方法的人在预测时,往往假设:在未来AI在最容易完成的任务,与AI当时能够完成的任务相似。

一篇2013年出版的经济学论文中,Frey和Osborne试图估算不同职业对计算机化的敏感程度,其中的一段话很好地概括了这一观点:

……计算机能够执行的任务最终取决于程序员编写一套程序或规则的能力,以便在各种可能的情况下正确引导技术。

因此,当一个问题可以被明确指定——也就是说,成功的标准是可量化且可以被轻松评估时,计算机相较于人类劳动将表现得更加高效。

打开网易新闻 查看精彩图片

文章链接:https://oms-www.files.svdcdn.com/production/downloads/academic/The_Future_of_Employment.pdf

当时这一预测或许合理,但在接下来的十年里,随着深度学习的进步,它被证明是个错误。

AI:从监督学习到GenAI

如今,LLM能够执行许多任务,而人类甚至无法完全理解内部原理。

而且,尽管清晰的问题定义仍然重要,但重要性体现在不同的方面。

在深度学习革命之后,AI经济学中出现了一种新的视角,即将AI系统视为「预测机器」(Prediction Machines)。

打开网易新闻 查看精彩图片

这一观点是对当时AI系统能力的反映:在2012年至2019年间,适用于预测任务的监督学习方法主导了该领域。

因此,一些人再次犯下了类似的错误,简单地假设它会像2010年代中期的监督学习一样,认为AI的未来只是拥有更强大的预测能力。

从《预测机器》中,可以看到一些相关的引用,清楚地说明了这一点:

…我们所见到的进步主要发生在机器学习领域,而机器学习更准确地说是一种统计学的进步,尽管是非常重大的进步;具体来说,是在用于生成预测的统计方法上的进步

新的AI技术将极大降低什么成本?预测。

因此,正如经济学所告诉我们的,不仅预测的使用将大幅增加,我们还会看到在一些新领域中,令人惊讶地适用

Frey和Osborne预测计算机化一样,上述新推测也被后来的发展所推翻,尤其是AI领域向无监督学习的转变,以及如今所谓的「生成式AI」(Generative AI)的兴起。

相比于上述例子,AI研究者和未来学家,常常使用的是从第一性原理出发的推理方法(first-principles reasoning)。

其中最著名的例子可能是Ray Kurzweil。

打开网易新闻 查看精彩图片

在1999年,他估算人脑的计算能力约为10^{16}次运算每秒,并结合摩尔定律(Moore’s Law)预测人类水平的AI系统将在2029年诞生。

打开网易新闻 查看精彩图片

摩尔定律

外推预测的风险

使用简单的模型将过去的数据外推到未来,是经过验证的预测方法,在许多领域都适用。

然而,在AI领域,如果仅依赖这种方法,存在严重的局限性

最主要的问题在于,这类方法过度依赖AI过去和当前的能力,导致低估未来AI的突破,特别是在当前完全无法胜任的任务上。

采用这种方法时,预测者即便有意识地试图考虑AI未来可能的进步,仍然倾向于认为未来的AI只是现在AI的增强版,其能力范围会逐步扩展到与现有任务相邻的领域。

目前,这种错误的最新表现形式是将AI的最新发展局限在「生成式AI」(Generative AI)的框架内。

就像过去「预测机器」的概念一样,这种狭隘的视角让人误以为,AI未来的能力可以通过简单推测「今天的图像生成器和聊天机器人会变得更便宜、更高效」来预测。

这种方法的局限性不可忽视 。

为了说明并提醒大家AI发展的不可预测性,在下方列出了一张表格,其中展示2016年人们认为AI重要能力的清单,对比今天的发展,你会发现当时的许多预测都已过时。

打开网易新闻 查看精彩图片

请注意,对2025年的用户来说显得重要的能力——问答、阅读理解、图像生成、编程、数学——在表中都没有出现。

这些都是由于scaling law和算法进步而出现的新能力。

如果只使用朴素外推法来预测2025年AI系统性能,那么没有人都预料到这些能力。

我们应该期待,AI当前能力与十年后能力之间的差异将同样巨大。这应该成为一种共识。

不宜外推AI对经济影响

在最近的论文中,Acemoglu犯了错误:过度依赖这种简单外推法。

打开网易新闻 查看精彩图片

Acemoglu借鉴了其他几位作者的研究,这些作者对不同经济任务受LLM自动化影响的程度以及在这些受影响任务上可能合理预期的成本节约进行了估算。

Acemoglu估计,由于AI的影响,未来十年经济产出将增长0.7%。结合三个不同的估算,得出了这个数字:

(1)Eloundou等人(2023年)的估计表明,在美国按工资账单计算的大约20%的任务暴露于由大语言模型实现的自动化之下。

(2)Svanberg等人(2024年)估计,在当前暴露于计算机视觉系统自动化的任务中,只有23%的任务实际进行自动化是具有成本效益的。

(3)Acemoglu假设,在这些自动化任务上,相较于由人类执行这些任务,平均可以节省大约30%的劳动力成本。

(4)Acemoglu进一步估计,这些任务成本的大约50%实际上是劳动力成本,因此总成本节约约为15%(即30%的劳动力成本节约乘以劳动力成本占总成本的50%)。

最后,关于这种自动化对GDP影响的粗略计算方法是:

首先计算成本减少的任务比例,大约为0.2*0.23=4.6%。

然后,考虑到生产力提升的隐含值约为1/0.85=17.6%,这是因为成本节约了15%,意味着原本的成本效率提高到了100/(100-15)≈117.6%,即提升了17.6%。

最后,将这两个数值相乘(4.6%*17.6%),得出总全要素生产率影响大约为0.8%

这个分析提供了对自动化技术可能带来的经济效益的量化视角,尽管实际情况可能会因多种因素而有所不同。

打开网易新闻 查看精彩图片

论文地址:https://shapingwork.mit.edu/wp-content/uploads/2024/05/Acemoglu_Macroeconomics-of-AI_May-2024.pdf

这是一个对可能总结为「LLMs,但更好」的假设性技术的经济产出影响的合理估计。

然而,这并不是我们应该对未来10年内的AI系统的期望:我们应该期望它们能够执行许多当前AI根本无法执行的任务。

例如,下图展示了测试时计算范式转变对LLM数学性能影响。

基本观点是,目前AI能够做到的事情并不能讲好未来的故事。

如果想要预测未来几年之外的AI发展,那么将目光局限于当前AI系统的能力,甚至局限于这些能力的当前变化速度,并不是一个好的选择。

打开网易新闻 查看精彩图片

推理模型超越数学性能的历史趋势

从先验角度来看,在未来十年中,我们应该期待会出现许多这样的不连续性和突然涌现的能力。

因此,尽管基于当前AI的能力进行预测似乎是一种更为稳妥和合理的方法,但实际上这种方法很可能严重不准确。

相反,允许技术进步突然加速和新能力出现的更具推测性的方法,可能会做出更好的预测。

有什么替代方法吗?

无法回避的问题是,预测未来本身就非常困难,尤其是在缺乏明确趋势可供外推的情况下。

例如,目前缺乏针对远程办公任务和机器人技术的高质量基准测试,即使有这样的基准测试,也会发现当前系统在这些任务上表现非常差,而线性外推可能会将它们的成熟期推迟到几十年甚至几百年之后。

这显然不是一种合理的方式来预测AI何时能在这些任务上表现出色,因为我们一再看到,基准测试的分数并不是时间的线性函数。

参考人类大脑预测AI能力

对于这些「尚未涌现」的任务——即人类可以完成但当前AI完全无法完成的任务,预测应该参考人类大脑及其资源需求所提供的存在性证明。

对于人类大脑能够执行的认知任务,可以说以下条件至少足以构建能够执行该任务的神经网络

1、运行时计算能力:1e15 FLOP/s,这是估计大脑执行计算的大致能力。 2、训练计算量:1e24 FLOP,人类在30岁之前大约存活了10亿秒。 3、训练算法:大小远小于100MB,并且进化搜索算法变体所需的计算量远小于1e45 FLOP。大小限制来自基因组的大小,而搜索计算限制则来自进化过程中可能发生的有效计算的热力学极限。 4、训练数据量:与人类在终身学习过程中接触到的数据量相当。

想要构建能够执行类似人类任务的AI系统,这些条件提供了一个理论上的下限。

在这些目标中,在大多数任务上,目前的新进展是能满足条件1、2和4。

要知道,直到大约2年前,AI系统的训练计算能力才突破1e24 FLOP,达到了条件2。

而尚未拥有展现出超越人类能力的AI系统,这表明在许多领域,算法仍逊色于人类大脑:还没有达到条件3。

2030年AGI可能性:10%-20%

搜索满足条件3算法的实际算力需求,难以确定,也难以消除。

因此保守的估计是:在发现能超越人脑的算法上,需要投入的计算量,在目前累计的计算量(可能在1e26到1e30 FLOP之间)和1e45 FLOP之间均匀分布。

预计到本年代末,累计计算量将增加大约1000倍。

从目前的情况来看,这意味着人类大约有20%的机会找到正确的算法。

即使考虑到模型的不确定性,把这个概率减半,到2030年实现人类水平的AI的可能性仍有10%。

这甚至还没有考虑到以下可能性:

与进化不同,人类能够在算法搜索、模型训练和模型推理之间进行权衡,并将训练计算量分摊到模型的所有部署实例中。

这较差的算法,可能通过更多的训练和推理计算来弥补。

事实上,Ege Erdil预计首批达到人类水平的AI系统会这样做。

考虑到这一点,概率应该会显著高于10%。(尽管具体有高多少,还不知道。)

结合Moravec悖论,对AI在哪些任务上会首先达到人类水平有了一个预期:这些任务正是AI相对于人类具有更大数据优势和较小算法劣势的任务。

例如,尽管Eloundou等人2023年的论文得出结论认为,需要科学技能的任务,预计会抵抗LLM自动化。

打开网易新闻 查看精彩图片

论文链接:https://arxiv.org/abs/2303.10130

但Ege Erdil认为:「这种更广泛的视角实际上表明,这反而是它更容易受到AI自动化影响的原因。」

原因是,相对于感觉运动和感知任务,科学推理并不是那种人类具有高效算法的任务。

结论

基本的结论是,AI目前能做什么并不是重点

如果想预测AI未来几年之后的发展,仅仅以当前AI系统的能力,甚至当前这些能力的变化速度作为锚点,并不是一个好主意。

相反,应该从各种任务的内在难度出发来思考,尽管当前AI系统在许多任务上完全无法胜任,但这恰恰反映了使用AI自动化这些任务所需的资源需求。

当这样做时,就会得到对AI进展更为乐观的图景,这更符合近期的历史。

许多人现在提出的关于「生成式AI」系统能力本质上受限的论点,如果放在2016年用来预测当时AI系统的局限性,可能会表现得很糟糕。

如果我们希望我们的预测更准确,就不应该依赖那些过去表现不佳的预测方法。

打开网易新闻 查看精彩图片

参考资料:

https://epoch.ai/gradient-updates/what-ai-can-currently-do-is-not-the-story