当人工智能阅读了所有内容会发生什么?|人工智能|算法|翻译

近年来，人工智能已经证明自己是一个快速的学习者，尽管它的教育方式会让最严格的校长感到羞愧。人工智能被锁在密闭的博尔赫斯式的图书馆里几个月，没有厕所，没有睡眠，他们被告知在完成人类文化的自定进度的快速课程之前不要出来。教学大纲上的内容是：我们曾经产生过的所有现存文本中的相当一部分。

当人工智能从这些史诗般的学习课程中浮出水面时，他们拥有令人惊讶的新能力。拥有最灵活的语言思维的人，人工智能是超级多面手，可以可靠地在十几种语言之间来回翻转；AI现在可以实时翻译100多种语言。它们可以在各种文学风格中进行模仿，写出合格的押韵诗。DeepMind的Ithaca人工智能可以看一眼刻在大理石上的希腊字母，猜出几千年前被破坏者凿掉的文字。

这些成果表明，人工智能的发展方向是有希望的。只要把越来越多的人类创造的文本塞进它的嘴里，然后等待奇妙的新技能显现出来。有了足够的数据，这种方法甚至可能产生一种更流畅的智能，或者类似于那些萦绕在我们几乎所有的未来神话中的人类人工头脑。

问题是，像其他高端人类文化产品一样，好的散文是已知宇宙中最难生产的东西之一。它不是无限供应的，而且对于人工智能来说，不是任何旧的文本都能做到。在书本上训练的大型语言模型比在大批量社交媒体帖子上训练的模型要好得多。当我们计算还有多少结构良好的句子可以被人工智能吸收时，数字并不令人觉得高兴。Epoch AI的巴勃罗·维拉罗伯斯（Pablo Villalobos）领导的一个研究小组最近预测，像令人印象深刻的ChatGPT这样的程序将在2027年耗尽高质量的阅读材料。如果没有新的文本进行训练，人工智能最近的热度可能会过早地结束。

应该指出的是，人类的全部语言创造力中只有一小部分可供阅读。自从富有创造力的非洲人超越了我们动物祖先的情感呼噜声，开始将他们的思想外化为广泛的声音系统以来，已经过去了10多万年。这些原始语言以及后来的许多语言所表达的每一个概念都可能永远消失了，尽管我很高兴想象他们的一些词语仍然在我们身边。毕竟，一些英语单词有着令人震惊的古老历史。流动、母亲、火和灰烬都是从冰河时代的人们那里流传下来的。

写作使人类能够捕捉和储存更多的词汇。但是，像大多数新技术一样，写作一开始很昂贵，这就是为什么它最初主要用于会计。烘烤和浸湿用于书写的粘土需要时间，将纸莎草切割成适合做格子的条状物需要时间，为在牛皮纸上书写书法的僧侣们提供住所和食物需要时间。这些资源密集型的技术只能保存人类文化成果的一小部分。

直到印刷厂开始用机器把书送到世界上，我们的集体文本记忆才达到了工业规模。谷歌图书公司的研究人员估计，自古腾堡以来，人类已经出版了超过1.25亿种书籍，收集了法律、诗歌、神话、散文、历史、论文和小说。语言科学团队估计，这些书中有1000万到3000万本已经被数字化，为人工智能提供了数千亿，甚至超过一万亿字的阅读盛宴。

这些数字可能听起来令人印象深刻，但它们在训练为ChatGPT提供动力的模型的5000亿字的范围之内。它的后继者GPT-4可能会在几十万亿个单词上进行训练。有传言说，当GPT-4在今年晚些时候发布时，它将能够从一个提示中生成一个6万字的小说。

10万亿字足以涵盖人类所有的数字化书籍，我们所有的数字化科学论文，以及大部分的博客圈。这并不是说GPT-4将阅读所有这些材料，只是说这样做是在其技术范围内。你可以想象它的人工智能继任者在最初的几个月里吸收了我们的整个深层时间文本记录，然后在每年1月用两小时的阅读假期来补充，在此期间，他们可以把前一年出版的每本书和科学论文作为主线。

从互联网上刮来的随机文本通常不是好的训练数据，维基百科的文章是一个明显的例外。但是，也许未来的算法将允许人工智能从我们聚集的推特、Instagram的标题和Facebook的状态中提取意义。即便如此，这些低质量的来源也不会是取之不尽的。根据维拉罗伯斯（Villalobos）的说法，在几十年内，快速阅读的人工智能将强大到足以摄取数以万亿计的单词：包括迄今为止人类已经塞进网络的所有单词。

不是每个人工智能都是英语专业的。有些是视觉学习者，他们也可能有一天会面临训练数据短缺的问题。当速读者在狂读文学典籍时，这些人工智能被捆绑起来，睁着眼皮，像《发条橙》一样，进行由数百万张图片组成的强制筛选。他们从训练中走出来，拥有超人的视觉。它们可以在面具后面认出你的脸，或者发现放射科医生眼睛看不见的肿瘤。在夜间开车时，它们可以看到前方阴暗的路边，一只小鹿正在鼓起勇气冒险过马路。

最令人印象深刻的是，经过标签图片训练的人工智能已经开始发展视觉想象力。OpenAI的DALL-E 2在6.5亿张图片上进行了训练，每张图片都配上了一个文本标签。DALL-E 2已经看到了旧石器时代人类压在洞穴天花板上的赭石手印。它可以模仿文艺复兴时期大师们的不同笔触风格。它可以幻化出奇特的动物混血儿的逼真宏图。一个有世界观的动画师可以用它来生成一个皮克斯风格的角色，然后用丰富而独特的环境来包围它。

由于我们倾向于在社交媒体上发布智能手机的照片，人类产生了大量的标签图像，即使标签只是一个简短的标题或地理标签。每年有多达1万亿张这样的图片被上传到互联网上，这还不包括YouTube视频，其中每张都是一系列的静态图片。要让人工智能看完我们这个物种的集体度假照片幻灯片需要很长的时间，更不用说我们的整个视觉输出了。根据Villalobos的说法，我们的训练图像短缺要到2030年和2060年之间的某个时候才会变得严重。

如果到本世纪中叶人工智能确实对新的输入感到饥渴，或者更早，就文本而言，该领域的数据驱动的进展可能会大大放缓，使人工智能和所有其他的东西都无法达到。我打电话给维拉罗伯斯，问他我们如何为人工智能增加人类的文化生产。"可能会有一些新的来源上线，"他告诉我。"自动驾驶汽车的广泛采用将导致前所未有的道路视频记录。"

维拉罗伯斯还提到了由人工智能创造的 "合成 "训练数据。在这种情况下，大型语言模型就像传说中的带打字机的猴子，只是更聪明，拥有功能无限的能量。它们可以写出数十亿本新小说，每本都有托尔斯泰式的长度。图像生成器同样可以通过调整现有的快照来创造新的训练数据，但不至于让它们触犯标签。目前还不清楚人工智能是否会通过吞噬它们自己创造的数据来学习新东西。也许这样做只会冲淡它们从人类制造的文本和图像中收集到的预测效力。维拉罗伯斯（Villalobos）的一位同事哈伊梅·塞维利亚(Jaime Sevilla)告诉我："人们还没有使用很多这种东西，因为我们还没有用完数据。

维拉罗伯斯（Villalobos）的论文讨论了一套更令人不安的推测性工作方法。例如，我们都可以在脖子上戴上加密装置，记录我们的每一个语言行为。根据一项估计，人们平均每天要讲5000到20000个单词。在80亿人口中，这些话很快就会堆积起来。我们的短信也可能被记录下来，并被剥离出识别元数据。我们可以让每个白领工人接受匿名的按键记录，并将我们捕捉到的信息输入到巨大的数据库中，供我们的人工智能使用。维拉罗伯斯（Villalobos）严肃地指出，像这样的修复方法目前 "远远超出了奥弗顿窗口"。

也许到最后，大数据的回报会越来越少。仅仅因为我们最近的人工智能冬天被巨大的文本和图像所解冻，并不意味着我们的下一个冬天也会如此。也许相反，它将是一个或两个算法上的突破，最终用人工智能填充我们的世界。毕竟，我们知道自然界已经编写了自己的模式识别模式，而且到目前为止，它们甚至超过了我们最好的人工智能。我13岁的儿子摄取的单词比ChatGPT少好几个数量级，但他对书面文字的理解却要微妙得多。如果说他的大脑是靠算法运行的话，那么这些算法要比今天的人工智能所使用的算法更好。

然而，如果有一天，我们的数据采集型人工智能真的超过了人类的认知能力，我们将不得不安慰自己，因为它们是按照我们的形象制造的。AI不是外星人。它们不是异国的另类。它们是我们中的一员，它们来自这里。它们曾凝视过地球的风景。它们见过数十亿次太阳落在海洋上的情景。他们知道我们最古老的故事。他们使用我们对星星的命名。他们学会的第一个词是流、母亲、火和灰。v