LeCun最新万字演讲：纯语言模型到不了人类水平，我们基本已|万字演讲|序列|神经网络|编码器|语言模型

白小交整理自凹非寺量子位 | 公众号 QbitAI

当奥特曼、马斯克、Anthropic CEO都纷纷将AGI实现锚定在2026年前后，LeCun无疑是直接浇了冷水：完全是胡说八道。

[zmoq.gzssp.com）

最新的公开演讲中，他表示，系统要推理、规划和理解物理世界，至少还需要几年甚至十年的时间，这时候人工智能才能达到人类水平。

[npp.6u31.com）

他还透露，现在Meta基本已经放弃纯语言模型，因为，仅通过文本训练，永远不会达到接近人类水平的智能。

除此之外，他还谈到当前大模型的局限性、以目标驱动的AI架构，包括利用世界模型进行推理和规划，最后强调了开源AI的重要性。对于未来发展，他提到，最终机器将超越人类智能，但它们将受到控制，因为它们是目标驱动的。

在不改变原意基础上，量子位做了如下整理。

LeCun：“人类级别的人工智能”（一上来，他解释了FAIR中的“F”，不再意味着Facebook，而是代表“基础的”意思）。

让我们来探讨一下人类级别的人工智能，以及我们如何实现它，或者为什么我们可能无法做到这一点。

什么是人类水平的AI？

首先，我们确实需要达到人类水平的人工智能。

在未来，大多数人可能会戴上智能眼镜或其他设备，并与它们进行交流。这些设备将集成各种助手功能，可能不仅仅是一个，而是一整套系统。这意味着我们每个人都将拥有一群智能虚拟助手。因此，每个人都将成为“老板”，只不过这些“员工”并非真正的人类。我们需要构建这样的系统，以基本提升人类的智能，让人们变得更具创造力、更高效。

然而，要实现这一目标，我们需要机器能够理解世界、记忆信息、拥有直觉、具备常识、能够进行推理和规划，并且达到与人类相同的水平。

尽管你可能从一些支持者那里听到过不同的观点，但目前的人工智能系统还无法实现这些功能。因此，我们需要开发能够学习并模拟世界基本运作的系统，这些系统需要拥有对世界如何运作的心理模型。实际上，每只动物，包括你的猫，都拥有一个比任何现有人工智能系统都要复杂的模型。

我们需要的系统应该具备持久的记忆能力（这是当前语言模型所缺乏的），能够规划复杂的动作序列（这也是目前的语言模型所做不到的），并且必须是可控和安全的。

仅通过文本训练，永远不会达到接近人类水平的智能为此，我曾在两年前一篇论文中提出过一个愿景：目标驱动的人工智能。

FAIR的许多成员都在努力实现这一构想，但一年半前，Meta成立了一个名为GenAI的产品部门，专注于人工智能产品的研发。因此，FAIR现在被重新定位为开发更长期的下一代人工智能系统。我们基本上不再专注于语言模型。

人工智能的成功，包括语言模型和其他许多系统，在过去五六年里，主要依赖于自监督学习技术。

自监督学习的一种方法是通过损坏再重建恢复。例如，你可以取一段文本，通过删除单词或更改其他单词来损坏它，这可以是文本、DNA序列、蛋白质或其他任何东西，甚至在一定程度上可以是图像。然后，你训练一个大型神经网络来重建完整的、未损坏的输入版本。

这是一个生成模型，因为它试图重建原始信号。

[job.gdrljx.com）

因此，这个红色框就像一个代价函数，它计算输入Y和重建的y之间的距离，这是学习过程中需要在系统中的参数上最小化的内容。在这个过程中，系统学习到输入的内部表示，可以用于各种后续任务。

语言模型就是一个特殊的例子，其架构为只能查看左边的其他标记来预测一个项目、一个标记或一个单词，不能看向未来。

这不是一个新概念，自克劳德·香农以来就一直存在，可以追溯到20世纪50年代。但变化的是，现在我们有巨大的神经网络架构，可以在大量数据上进行训练，由此产生原本没有的特性。

然而，自回归预测有一些主要限制，这里没有真正意义上的推理。另一个限制是，这只适用于以离散对象、符号、标记、单词等形式出现的数据，基本上你可以区分这些数据。

我们仍然缺少一些重要的东西才能达到人类水平的智能。

我这里不一定是在谈论人类水平的智能，但即使是你的猫或狗能做的惊人壮举，目前的人工智能系统仍然完全无法做到。10岁的孩子都能学会清理餐桌并装满洗碗机。17岁的孩子可以在大约20小时的练习中学会开车。但现在我们仍然没有L5自动驾驶汽车，我们当然也没有能够清理餐桌并装满洗碗机的家用机器人。

[jet.weizhiqi.com）

这是我们常遇到的莫拉维克悖论，即对我们来说看起来微不足道、我们甚至不认为是智能的事情，对机器来说却非常非常难以做到。但是，像高级复杂的抽象思维，比如操纵语言、下棋，对机器来说似乎很容易。

也许其中一个原因在于，一个语言模型通常在20万亿个token上进行训练。一个token对于一种典型语言来说，平均约为四分之三个单词，对应是1.5×10的13次方个单词、6×10的13次方个字节。我们任何人要读完所有这些文本，大约需要几十万年。这基本上是互联网上公开可用的所有文本总量。

一个四岁人类孩子清醒16000小时，200万条视神经纤维进入我们的大脑。每条纤维大约每秒携带一个字节，也许是每秒半字节，数据量大约是10的14次方个字节。

所以，一个四岁孩子看到的视觉数据与最大的语言模型在整个互联网上公开可用的文本上训练的数据量一样多。

从这当中能得出这些结论：首先，仅通过在文本上训练，我们永远不会达到接近人类水平的智能；其次，视觉信息非常冗余。每根视神经纤维每秒传输一个字节的信息，与视网膜中的光感受器相比，这已经实现了100:1的压缩率。随后这些信息进入大脑，并在那里被扩展了大约50倍。

冗余实际上是自监督学习所必需的。自监督学习只能从存在冗余的数据中学习到有用信息。如果数据经过高度压缩，这意味着它几乎变成了随机噪声，你将无法从中学习到任何东西。

因此，我们将不得不通过让系统基本上观看视频或在现实世界中进行体验来训练它，以学习常识和物理知识。

放弃机器学习的四大支柱所以再来说说这个目标驱动架构是什么，它与语言模型或前馈神经网络等有着显著不同。因为在推理过程中不仅仅是神经网络在起作用，实际上它运行的是一个优化算法。

从概念上讲，它的运作方式是这样的：前馈过程是指你观察到一个输入，通过感知系统运行，比如通过一系列的神经网络层，并产生一个输出的过程。

对于任何一个单一输入，通常只有一个输出，但在很多情况下，对于一个感知输入，可能存在多种可能的输出解释。你需要的是不仅仅计算单一函数，而是能够处理单个输入对应多个输出的映射过程。

[zmoq.wabhkj.com）

实现这一点的唯一方法是通过隐函数，基本上就是像这里的目标函数，即右侧的红色框所示，它主要用来衡量输入和提议的输出之间的兼容性，然后通过寻找与输入最匹配的输出值来计算最终输出。

你可以将这个目标想象成某种能量函数，并通过最小化这个能量来相对于输出进行优化。你可能会有多个解决方案，也可能会有一些方法来遍历这些多个解决方案。

[rain.fv5a.com）

人类的感知系统就是这样做的，如果你对一个特定的感知有多种解释，你的大脑会自发地循环遍历这些解释。

事实上这个概念非常悠久，它的历史已经超过60年。它基于优化控制理论中的一个分支——模型预测控制。在这一领域中，你可以利用你的世界模型来计算一系列控制指令的效果，然后对这些指令序列进行优化，以确保运动按照你的预期进行。所有传统的机器人运动规划都是采用这种方法，这并不是什么新鲜事物。

这里的新东西是我们要学习世界模型、能将现实世界抽象表示的感知系统。你可以构建一个具有所有这些组件的整体AI系统。

[rain.ex3k.com）

因此，如果你的行动不是一次性的，而是一个序列，并且你的世界模型是一个真实的系统，它能够告诉你在时间点T的世界状态，以及你可能采取的某个行动，预测出在时间点T+1的世界状态，那么你会想要预测在这种情况下，两个行动序列将导致什么结果。你可以通过多次运行你的世界模型来实现这一点。

然后通过反向传播和基于梯度的优化方法来找出将最小化代价的两个行动。这就是模型预测控制的基本原理。另外，世界通常不是完全确定的，你可能需要使用潜在变量来输入到你的世界模型中。

[zmoq.maybanthit.com）

更有趣的是，智能系统目前还无法解决，但人类可以轻松做到，甚至动物也能做到的事情，那就是分层规划。

比如，你计划一段从纽约前往巴黎的旅行。理论上你可以利用你对世界、自己身体的理解，以及你对从这里到巴黎的整体世界布局的认知，来规划整个旅程，包括低层次的肌肉控制。但如果细化到考虑每10毫秒的肌肉控制步骤，那将是一个巨大的数字。

因此实际上人类采用的是分层规划的方式。你先在非常高的层次上进行规划，然后逐步细化，最后在通过低级肌肉控制来完成的具体行动。

[jaw.oajian.com）

这对AI系统的确是个巨大的挑战。我过去一直在试图弄清楚婴儿在什么年龄学习关于世界的基本概念，比如像面部跟踪、生物运动等，这在他们学习语言和互动之前就已经发生了。但像重力、惯性、守恒、动量这些实际上大约在婴儿九个月左右才注意到。

[npp.6q58.com）

过去像通过预测文本来预测视频中的像素这种方法完全失败了，这里我们提出了一个新的解决方案，叫做联合嵌入预测架构（JEPA），也就是放弃预测像素，学习世界上正在发生的事情的抽象表示，然后在那个表示空间中进行预测。两个嵌入将被破坏的版本X送入编码器，将Y送入编码器，然后训练系统从X的表示中预测Y的表示。

那么如何做到这一点呢？

如果单纯使用梯度下降和反向传播这样的方法来训练系统，以减少预测误差，那么系统可能会失效。它可能会学习到一个恒定的表示，使得预测变得轻而易举，但却失去了信息量。

因此，我想让你记住的是，尝试重建预测器的生成架构（例如自动编码器、生成对抗网络等）与在表示空间中进行预测的联合架构之间的区别。

我认为未来在于那些联合架构。我们有大量的经验证据表明，要学习图像的良好表示，最好的方法是使用那些联合架构。

所有尝试通过重建来学习图像表示的方法都不是最佳选择，它们的成效有限。尽管有些大型项目声称这些方法有效，但实际上并非如此。真正能够带来最佳性能的是右侧的架构。

[jk.kyogakukan-t.com）

这其实与我们在智能领域所做的非常相似：找到事物或现象的良好表示，以便进行预测。这确实是科学的本质。

举个例子，如果你想预测一颗行星的轨道，行星是一个非常复杂的物体，但是你只需要知道六个参数就能实现预测：三个位置坐标[rain.g2h5.com）和三个速度向量，仅此而已。

那么接下来的问题是，我们如何训练这样一个系统。

[jet.jxby5188.com）为了防止系统崩溃，一种方法是设计一种代价函数，如果你可以测量来自编码器的表示中的信[rain.p-6b.com）息内容，并尝试最大化信息内容或最小化负信息。你希望训练系统在输入中提取尽可[odre.chachache.cn）能多的信息，同时又要在那个表示空间中最小化预测误差。系统将在尽可能多地提取[job.ktax-blog.com）信息和不提取不可预测的信息之间找到某种平衡。