杨立昆公开“手撕”Meta 内部环境：“LLM 吸光了房间里的空气”，物理世界才是 AGI 的终局|meta|动力学|尺度|杨立昆

Sora 死后，生成式视频路线已到头。

编译 | 王启隆

出品丨AI 科技大本营（ID：rgznai100）

2026 年 3 月，在新德里的 AI Alliance Global Leadership Reception 上，Christopher Nguyen 邀请到杨立昆聊了一个对未来影响深远的话题：今天的 AI 缺了一块很大的东西，而他想讨论的，不只是这块拼图究竟是什么，更是 LeCun 正在推进的JEPA，是否就是那块缺失的答案。

一如既往，LeCun 再次表达了他对 LLM 路线的怀疑，但他这次把另一条技术叙事讲得足够完整：如果真实世界的大部分细节本来就不可预测，那么 AI 要学的，可能就不是如何重建一切，而是如何找到那些真正可预测、也真正有用的抽象表示。

接下来的对话里，他系统解释了为什么文本可以靠离散 token 预测一路推高能力，视频和真实世界却不行；为什么重建式路线会在现实信号上遇到根本限制；以及为什么他相信，真正通向下一代 AI 的，不是把现有生成式方法再往上堆一层，而是去学习抽象表示，并在表示空间里做预测。

要点速览

LeCun 认为，LLM 的上限不只是能力问题，而是“下一 token 预测”这条路线本身不适合真实世界。
AI 真正缺的，不是更大的语言模型，而是能学习抽象表示、预测后果并支持规划的世界模型。
JEPA 的关键，不是重建全部细节，而是在表示空间里抓住那些真正可预测的结构。
在图像和视频表示学习上，联合嵌入方法长期优于重建式方法，这在他看来已经是明确的经验结论。
这也是他离开 Meta、转向 AMI Labs 的原因之一：LLM 已经吸走了太多资源，而 JEPA 更重要的应用在真实世界。

接下来是这场对话的精编翻译。

AI 今天真正缺的，不是更多 token，而是世界模型

主持人：在开始之前，我先把这场对话的议程说清楚。第一件事比较容易说服大家：今天的 AI，确实缺了一块非常大的东西。第二件事更难：我希望这场谈话至少能开始让大家相信，Yann 正在做的事情，可能就是那块缺失拼图的答案。

如果要用最容易理解的方式来解释，你会怎么向大家说明这两件事：AI 到底缺了什么？为什么你认为 JEPA 是答案？

Yann LeCun：这个问题其实分成两个部分。第一，缺的到底是什么？答案是：世界模型。第二，什么是世界模型，我们又该怎么把它建出来？

过去大概 15 年，AI 经历了两次革命。一次是深度学习，另一次当然就是 LLM，本质上是 GPT 这类架构推起来的。GPT 真正重要的，不是 transformer 本身，而是它背后的训练思想：给系统一个输入序列，再训练它把这个输入序列复现到输出上。由于这个架构是严格因果的，它只能看到当前位置左边的符号，所以它本质上是在做“下一 token 预测”，也就是下一个符号预测。

这是一种自监督学习。你并不是在为某个具体任务训练它，而是在让它学习序列中不同符号之间的依赖关系。最开始其实也有一些架构尝试在任意方向上做预测，但最后真正能扩展起来的，是只做时间上向未来的预测，也就是 GPT 这条路。

这条路为什么对文本有效？因为文本是离散的，token 的种类也是有限的。你永远不能确定某串词后面一定跟哪个词，但因为可能的 token 数量有限，你可以对每一种可能性打分，得到一个在十万级词表上的概率分布。

问题是，这一套方法一旦离开文本，就会遇到根本困难。我至少花了 15 年在研究，怎么把自监督学习这套想法用到视频上。也就是说，训练一个系统去预测视频接下来会发生什么。但最后你会发现，这件事根本做不通。

比如我拍一段这个房间的视频，镜头慢慢转过去，然后在某一刻停住。我让系统预测接下来的视频。它当然可以猜到一些大概的东西，比如这是一个房间，房间里坐着人，前面有桌子。但它绝不可能预测出你们每个人具体长什么样，哪些座位有人，地毯的纹理是什么，吊灯的反光是什么样。现实世界里，我们观察到的大部分细节，本来就是不可预测的。

如果你硬逼系统去预测这些细节，唯一的办法就是再塞给它额外信息，让它有能力把这些细节复原出来。这个额外信息就是潜变量。但问题在于，这个潜变量最后往往承载了绝大部分预测所需的信息，于是整件事就失效了。

真实世界本来就是这样。我们当然可以预测，如果把门窗都关上，再把这个房间里的空气加热，温度和压强会怎样变化，因为有 PV=nRT。但你不可能去预测每一个空气分子的运动轨迹。分子太多了，不可能逐一模拟。

所以，试图预测数据中的所有细节——不管是视频、分子动力学，还是别的连续世界信号——这个想法本身就是错的。

真正可行的做法，是换一种架构：不要试图重建输入里的每一个细节，而是去学习一种抽象表示，并在这个抽象表示空间里做预测。这就是 JEPA，也就是联合嵌入预测架构。

JEPA 的意思是，你训练系统去找到一种尽可能保留输入信息、但同时又具有可预测性的表示。比如在这个房间里，温度和压强是可以互相预测的；空气分子的具体位置和速度则不行。物理学家早就把这件事做成了体系：为了做预测，他们必须忽略大量细节，而这些被忽略掉的东西，叫作熵。

你去模拟机翼周围的空气流动，也不是去追踪每一个空气分子，而是把空气抽象成速度、密度、温度，然后解 Navier–Stokes 方程。我们做建模一直都是这样。量子场太复杂，于是我们发明了粒子；粒子太多，于是我们发明了原子；再往上有分子、蛋白质、细胞、生物体、生态系统、社会。每一个层级，都是为了在忽略下层细节的情况下，保留足够的结构来做预测。

从这个意义上说，JEPA 其实是一个非常简单的想法：不要去重建信号中的一切，而要去寻找一种可以支持预测的抽象表示。

如果我把人类已经收集到的所有木星数据都丢给你，这些数据本身并不会自动带来预测能力。比如我问你，木星十年后会在哪，你真正需要的可能只有六个数字：三个位置，三个速度。其他大量细节可能都不重要。它们不是没价值，只是对这个问题没帮助。

如果你用这种方式训练出系统，而且这种系统不再是生成式的，也不再是传统意义上概率式的——虽然它仍然可以处理不确定性——那你就有可能真正构建面向现实世界的 AI。

再进一步，如果这个系统学到的不是单纯时间预测，而是带动作条件的预测：在时间 t 的世界状态下，假设采取某个行动，那么 t+1 的世界状态会是什么。那它就成了真正的世界模型。你可以用它来规划，规划一串最优动作，以达成某个目标函数下的结果。

大家都在讲智能体系统，但其实没有人真正知道怎么把它们建得可靠。至少在我看来，单靠 LLM 很难做到，因为 LLM 并没有能力预测自己行动的后果。要做到这一点，你需要的是世界模型。

为什么 LeCun 认为生成式路线有根本上限

主持人：这套想法在直觉上很容易让人认同。我们感知世界的时候，也不是在脑子里重建声音、像素和全部细节，而是形成某种表示。那问题就来了：为什么不能继续扩大另一条路线？为什么不能靠更多算力、更多数据，把生成式方法继续推上去？这到底是规模问题，还是更本质的方法问题？

Yann LeCun：我认为这是生成式方法本身的根本限制。只要你试图重建信号里的全部细节，这条路就是有问题的。

第二个限制是，为了让这些生成式模型工作，你通常还得先把信号离散化，也就是 token 化，把它变成离散符号序列。你当然可以尝试把视频也这样处理，但效果并不好。

在计算机视觉里，我们其实已经积累了很多年经验。要用自监督的方式学图像表示，大体上有两种路线。第一种是重建：拿一张图像，做一些破坏，比如遮住一部分、模糊它、改颜色，再训练一个大网络去从这个被破坏的版本里重建原图。这在自然语言处理中对应的是 BERT，在视觉里则有遮罩图像建模、遮罩自编码器这些方法。

它们不是完全没用，也能学到一些表示，再拿去做下游监督任务。但还有第二种路线，就是联合嵌入。你把原图和被破坏或变换后的图都送进编码器里，训练它们在表示空间中互相可预测。换句话说，你不要求它把像素重建回来，而要求它学会一种更高层的表示。

这么多年的实验结论其实很明确：联合嵌入几乎每次都比重建更强。不管是 VAE、VQ-VAE、稀疏自编码器，还是别的重建方法，都没有真正比过这些不试图重建的方式。

对我来说，这是一个非常强的经验信号：对于自然信号来说，重建本身就是个坏主意。

我其实已经和这个想法生活了 40 年。1987 年我的博士论文里，就在做自编码器，甚至是去噪自编码器。1986 年我就在训练这类东西。它们当然“有点效果”，但远远谈不上真正可行。后来 Geoff Hinton 也一样，对这类方法的表现并不满意。

最后我们看到的结论是：对于自然信号，学习表示的最好办法，不是重建，而是不重建。最近几年，这种联合嵌入方法再用到视频上，也出现了非常好的结果。

从 collapse 到 DINO：这条路为什么现在才开始真正成熟

主持人：但怀疑者会问一个问题：在表示空间里学习当然听起来很好，可它很容易塌缩，落到 trivial solution（平凡解，线性系统的解为零向量的情况）。那最近这几年到底发生了什么，让你觉得这条路真的可以往前走了？

Yann LeCun：这个问题其实很早就出现了。1993 年我在 Bell Labs 的时候，就有人找我们做签名验证。他们的需求很具体：信用卡磁条上只有 80 字节空间，能不能把签名的“gist”编码进这 80 字节里，然后比较两次签名是否属于同一个人。

当时我的想法是用后来被叫作孪生神经网络的结构：给它两个同一个人的签名，分别过同一个网络，再要求它们输出相同的表示。问题是，如果你只这么做，系统最简单的解法就是忽略输入，永远输出一个常数表示，这就是塌缩。

后来我们想到的办法，就是今天所谓对比式方法：除了给它同一个人的两个签名，也给它不同人的签名，或者真实签名和伪造签名，然后要求这些表示彼此拉开。这在签名任务上有效，后来在 ImageNet 这种对象识别任务上也有效，但它不太容易扩展，学到的表示维度通常比较低。

所以很长一段时间里，我并不觉得这会是自监督学习的最终答案。直到大概五年前，我的一个博士后 Stéphane Deny，以及其他一些相关工作，开始用另外一种方法来避免塌缩。它们不是对比式方法，而是通过最大化某种信息量，迫使编码器输出的信息保持“有信息”，从而防止系统直接忽略输入。

这一条路后来发展成了 Barlow Twins，之后又有 VICReg，再往后还有基于蒸馏的方法。与此同时，Meta 那边也有 DINO、DINOv2、DINOv3。这些结果让事情变得很清楚：我们确实已经有办法避免塌缩，而且这些办法在图像表示学习上非常有效。

所以我后来才真正觉得，这就是未来应该走的方向。当然，这里面的理论解释还没有完全建立起来。为什么这些防塌缩方法能这么有效，我们其实还没有彻底理解。

LLM 已经把房间里的空气吸光了

主持人：过去 FAIR 一直是很好的研究环境。扎克伯格也很希望你留下来。那为什么你最后还是决定离开 Meta，去做 AMI Labs？在外面到底能做什么，是在 Meta 里面做不了的？

Yann LeCun：至少到去年之前，FAIR 还是一个非常适合做研究的地方。但过去这一年，Meta 的重心已经明显转向更短期的目标了，本质上就是追赶整个 LLM 产业。这就导致那些更长期、更激进、也更偏离当前主流范式的项目，被放到了更次要的位置。

当一家整个公司都在往某个范式上投入数千亿美元，而你这个 Chief AI Scientist 又到处说，单靠放大 LLM 永远不可能走到人类级 AI，你自然不会特别受欢迎。

当然，Mark Zuckerberg 和 Andrew Bosworth 其实都对我在做的项目非常支持。我们当时在 Meta 内部把这个项目叫作 AMI，Advanced Machine Intelligence，后来这也成了新公司的名字。但我后来还是去跟 Mark 讲，这个方向在公司内部从政治上已经很难继续推了。因为LLM 基本上已经把房间里的空气都吸光了。

这是第一点。第二点是，这些 JEPA 想法真正重要的应用，很多都在 Meta 根本不会碰的地方：工业流程控制、机器人、现实世界系统，还有很多其他应用。Meta 的核心业务还是连接人与人，而不是这些现实世界问题。

所以，一方面是公司内部模式发生了变化，另一方面是外部应用空间太大，再加上融资条件也成熟了，JEPA 的结果又开始真正跑出来了，这时候离开就变成了一件顺理成章的事。

从卫星到经济系统，世界模型真正要去的地方在哪里？

主持人：我们其实一直在用 Barlow Twins 和 JEPA 训练卫星模型，效果非常好，也很简单。所以我完全相信你说的抽象表示这条路。但现在的问题是，我们训练出了一个很漂亮的模型，它对太空这个尺度有效，可它和其他尺度上的 JEPA 模型之间并没有真正连接起来。你觉得未来这些模型会不会形成某种分层 JEPA，最后在不同尺度之间连起来？

Yann LeCun：我觉得最终你确实需要某种分层 JEPA。低层表示负责更短时、更细节的预测，但这些预测通常会很快偏离现实。所以你还需要更高层的表示，去做更长时间、更大尺度的预测。

高层级的一个特点，就是它能在更大的时间尺度和空间尺度上做预测。这其实也和物理里的很多思想相通，比如重整化群理论，也和卷积网络里的池化有某种相似性。

而且不同物理现象之间，本来就共享很多共性。我觉得这给了我们一种可能：建出某种更通用的模型，让一个领域里形成的“直觉”，能迁移到另一个领域里去。比如你如果真的理解流体动力学，哪怕只是高层的直觉，你既可以用它理解涡喷发动机，也可以用它理解机翼，也可以用它理解帆的受力。

我们人类其实一直就是这么工作的。甚至猫也是。你的猫对于自己的身体动力学、摩擦、跳跃这些事，理解得可能比任何你能写出来的方程都好。它知道什么时候能跳上去，怎么连续借力，怎么控制身体，这是一种非常高层但非常有效的世界模型。

主持人：我们会前还聊到另一个问题，就是经济模型。如果从政策、预测、经济这些角度看，经济系统里有公司、个人、政府、组织这些“微观主体”，又有国家、区域、产业这样的“宏观结构”。你怎么理解这种从微观到宏观的问题？

Yann LeCun：不管是在物理、经济学、社会科学还是工程里，最难的问题之一，都是怎么从微观过渡到中观，再到宏观。

在物理里，这件事其实最近几年才真正开始有一些理论上的突破。比如怎么从分子碰撞推到 Boltzmann 方程，再怎么从 Boltzmann 方程走到 Navier–Stokes 方程。再往上，你又会遇到更高层的问题，比如给定一个特定翼型和特定速度，怎么直接预测升力和阻力。

其实现在已经有人在做这类事情：先用 Navier–Stokes 方程或者计算流体动力学生成训练数据，再训练神经网络去直接预测升力和阻力。这样得到的是一个可微分模型，你甚至可以直接对形状反传梯度，去优化形状本身。类似例子在材料科学、宇宙学模拟等很多地方都已经出现了。

经济学会更难，因为你面对的不是遵守牛顿定律的分子，而是大量在有限信息下做半理性决策的人和组织。这样形成的涌现行为，本来就极难建模。

所以在我看来，这类问题最后很可能还是要靠一种数据驱动的方法，也就是类似 JEPA 的路径，去找到好的抽象。宏观经济学其实也一直在做这件事，只不过是用更高层的抽象，把微观细节进一步压掉。

我觉得这种方法在经济学里会有很多应用，在金融里可能也有应用。但金融的问题是，大部分数据本质上都是噪音，信噪比非常低。

原视频链接：youtu.be/wDeXfFQcJxk

（投稿或寻求报道：zhanghy@csdn.net）

"48 小时，与 50+ 位大厂技术决策者，共探 AI 落地真路径"

由 CSDN&奇点智能研究院联合举办的「全球机器学习技术大会」正式升级为「奇点智能技术大会」。

2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开，大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块，特邀来自BAT、京东、微软、小红书、美团等头部企业的 50+ 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论，真正实现 AI 技术的规模化落地与商业价值转化。

这不仅是一场技术的盛宴，更是决策者把握 2026 AI 拐点的战略机会。