Sora 死后,生成式视频路线已到头。
编译 | 王启隆
出品丨AI 科技大本营(ID:rgznai100)
2026 年 3 月,在新德里的 AI Alliance Global Leadership Reception 上,Christopher Nguyen 邀请到杨立昆聊了一个对未来影响深远的话题:今天的 AI 缺了一块很大的东西,而他想讨论的,不只是这块拼图究竟是什么,更是 LeCun 正在推进的JEPA,是否就是那块缺失的答案。
一如既往,LeCun 再次表达了他对 LLM 路线的怀疑,但他这次把另一条技术叙事讲得足够完整:如果真实世界的大部分细节本来就不可预测,那么 AI 要学的,可能就不是如何重建一切,而是如何找到那些真正可预测、也真正有用的抽象表示。
接下来的对话里,他系统解释了为什么文本可以靠离散 token 预测一路推高能力,视频和真实世界却不行;为什么重建式路线会在现实信号上遇到根本限制;以及为什么他相信,真正通向下一代 AI 的,不是把现有生成式方法再往上堆一层,而是去学习抽象表示,并在表示空间里做预测。
要点速览
LeCun 认为,LLM 的上限不只是能力问题,而是“下一 token 预测”这条路线本身不适合真实世界。
AI 真正缺的,不是更大的语言模型,而是能学习抽象表示、预测后果并支持规划的世界模型。
JEPA 的关键,不是重建全部细节,而是在表示空间里抓住那些真正可预测的结构。
在图像和视频表示学习上,联合嵌入方法长期优于重建式方法,这在他看来已经是明确的经验结论。
这也是他离开 Meta、转向 AMI Labs 的原因之一:LLM 已经吸走了太多资源,而 JEPA 更重要的应用在真实世界。
接下来是这场对话的精编翻译。
AI 今天真正缺的,不是更多 token,而是世界模型
主持人:在开始之前,我先把这场对话的议程说清楚。第一件事比较容易说服大家:今天的 AI,确实缺了一块非常大的东西。第二件事更难:我希望这场谈话至少能开始让大家相信,Yann 正在做的事情,可能就是那块缺失拼图的答案。
如果要用最容易理解的方式来解释,你会怎么向大家说明这两件事:AI 到底缺了什么?为什么你认为 JEPA 是答案?
Yann LeCun:这个问题其实分成两个部分。第一,缺的到底是什么?答案是:世界模型。第二,什么是世界模型,我们又该怎么把它建出来?
过去大概 15 年,AI 经历了两次革命。一次是深度学习,另一次当然就是 LLM,本质上是 GPT 这类架构推起来的。GPT 真正重要的,不是 transformer 本身,而是它背后的训练思想:给系统一个输入序列,再训练它把这个输入序列复现到输出上。由于这个架构是严格因果的,它只能看到当前位置左边的符号,所以它本质上是在做“下一 token 预测”,也就是下一个符号预测。
这是一种自监督学习。你并不是在为某个具体任务训练它,而是在让它学习序列中不同符号之间的依赖关系。最开始其实也有一些架构尝试在任意方向上做预测,但最后真正能扩展起来的,是只做时间上向未来的预测,也就是 GPT 这条路。
这条路为什么对文本有效?因为文本是离散的,token 的种类也是有限的。你永远不能确定某串词后面一定跟哪个词,但因为可能的 token 数量有限,你可以对每一种可能性打分,得到一个在十万级词表上的概率分布。
问题是,这一套方法一旦离开文本,就会遇到根本困难。我至少花了 15 年在研究,怎么把自监督学习这套想法用到视频上。也就是说,训练一个系统去预测视频接下来会发生什么。但最后你会发现,这件事根本做不通。
比如我拍一段这个房间的视频,镜头慢慢转过去,然后在某一刻停住。我让系统预测接下来的视频。它当然可以猜到一些大概的东西,比如这是一个房间,房间里坐着人,前面有桌子。但它绝不可能预测出你们每个人具体长什么样,哪些座位有人,地毯的纹理是什么,吊灯的反光是什么样。现实世界里,我们观察到的大部分细节,本来就是不可预测的。
如果你硬逼系统去预测这些细节,唯一的办法就是再塞给它额外信息,让它有能力把这些细节复原出来。这个额外信息就是潜变量。但问题在于,这个潜变量最后往往承载了绝大部分预测所需的信息,于是整件事就失效了。
真实世界本来就是这样。我们当然可以预测,如果把门窗都关上,再把这个房间里的空气加热,温度和压强会怎样变化,因为有 PV=nRT。但你不可能去预测每一个空气分子的运动轨迹。分子太多了,不可能逐一模拟。
所以,试图预测数据中的所有细节——不管是视频、分子动力学,还是别的连续世界信号——这个想法本身就是错的。
真正可行的做法,是换一种架构:不要试图重建输入里的每一个细节,而是去学习一种抽象表示,并在这个抽象表示空间里做预测。这就是 JEPA,也就是联合嵌入预测架构。
JEPA 的意思是,你训练系统去找到一种尽可能保留输入信息、但同时又具有可预测性的表示。比如在这个房间里,温度和压强是可以互相预测的;空气分子的具体位置和速度则不行。物理学家早就把这件事做成了体系:为了做预测,他们必须忽略大量细节,而这些被忽略掉的东西,叫作熵。
你去模拟机翼周围的空气流动,也不是去追踪每一个空气分子,而是把空气抽象成速度、密度、温度,然后解 Navier–Stokes 方程。我们做建模一直都是这样。量子场太复杂,于是我们发明了粒子;粒子太多,于是我们发明了原子;再往上有分子、蛋白质、细胞、生物体、生态系统、社会。每一个层级,都是为了在忽略下层细节的情况下,保留足够的结构来做预测。
从这个意义上说,JEPA 其实是一个非常简单的想法:不要去重建信号中的一切,而要去寻找一种可以支持预测的抽象表示。
如果我把人类已经收集到的所有木星数据都丢给你,这些数据本身并不会自动带来预测能力。比如我问你,木星十年后会在哪,你真正需要的可能只有六个数字:三个位置,三个速度。其他大量细节可能都不重要。它们不是没价值,只是对这个问题没帮助。
如果你用这种方式训练出系统,而且这种系统不再是生成式的,也不再是传统意义上概率式的——虽然它仍然可以处理不确定性——那你就有可能真正构建面向现实世界的 AI。
再进一步,如果这个系统学到的不是单纯时间预测,而是带动作条件的预测:在时间 t 的世界状态下,假设采取某个行动,那么 t+1 的世界状态会是什么。那它就成了真正的世界模型。你可以用它来规划,规划一串最优动作,以达成某个目标函数下的结果。
大家都在讲智能体系统,但其实没有人真正知道怎么把它们建得可靠。至少在我看来,单靠 LLM 很难做到,因为 LLM 并没有能力预测自己行动的后果。要做到这一点,你需要的是世界模型。
为什么 LeCun 认为生成式路线有根本上限
主持人:这套想法在直觉上很容易让人认同。我们感知世界的时候,也不是在脑子里重建声音、像素和全部细节,而是形成某种表示。那问题就来了:为什么不能继续扩大另一条路线?为什么不能靠更多算力、更多数据,把生成式方法继续推上去?这到底是规模问题,还是更本质的方法问题?
Yann LeCun:我认为这是生成式方法本身的根本限制。只要你试图重建信号里的全部细节,这条路就是有问题的。
第二个限制是,为了让这些生成式模型工作,你通常还得先把信号离散化,也就是 token 化,把它变成离散符号序列。你当然可以尝试把视频也这样处理,但效果并不好。
在计算机视觉里,我们其实已经积累了很多年经验。要用自监督的方式学图像表示,大体上有两种路线。第一种是重建:拿一张图像,做一些破坏,比如遮住一部分、模糊它、改颜色,再训练一个大网络去从这个被破坏的版本里重建原图。这在自然语言处理中对应的是 BERT,在视觉里则有遮罩图像建模、遮罩自编码器这些方法。
它们不是完全没用,也能学到一些表示,再拿去做下游监督任务。但还有第二种路线,就是联合嵌入。你把原图和被破坏或变换后的图都送进编码器里,训练它们在表示空间中互相可预测。换句话说,你不要求它把像素重建回来,而要求它学会一种更高层的表示。
这么多年的实验结论其实很明确:联合嵌入几乎每次都比重建更强。不管是 VAE、VQ-VAE、稀疏自编码器,还是别的重建方法,都没有真正比过这些不试图重建的方式。
对我来说,这是一个非常强的经验信号:对于自然信号来说,重建本身就是个坏主意。
我其实已经和这个想法生活了 40 年。1987 年我的博士论文里,就在做自编码器,甚至是去噪自编码器。1986 年我就在训练这类东西。它们当然“有点效果”,但远远谈不上真正可行。后来 Geoff Hinton 也一样,对这类方法的表现并不满意。
最后我们看到的结论是:对于自然信号,学习表示的最好办法,不是重建,而是不重建。最近几年,这种联合嵌入方法再用到视频上,也出现了非常好的结果。
从 collapse 到 DINO:这条路为什么现在才开始真正成熟
主持人:但怀疑者会问一个问题:在表示空间里学习当然听起来很好,可它很容易塌缩,落到 trivial solution(平凡解,线性系统的解为零向量的情况)。那最近这几年到底发生了什么,让你觉得这条路真的可以往前走了?
Yann LeCun:这个问题其实很早就出现了。1993 年我在 Bell Labs 的时候,就有人找我们做签名验证。他们的需求很具体:信用卡磁条上只有 80 字节空间,能不能把签名的“gist”编码进这 80 字节里,然后比较两次签名是否属于同一个人。
当时我的想法是用后来被叫作孪生神经网络的结构:给它两个同一个人的签名,分别过同一个网络,再要求它们输出相同的表示。问题是,如果你只这么做,系统最简单的解法就是忽略输入,永远输出一个常数表示,这就是塌缩。
后来我们想到的办法,就是今天所谓对比式方法:除了给它同一个人的两个签名,也给它不同人的签名,或者真实签名和伪造签名,然后要求这些表示彼此拉开。这在签名任务上有效,后来在 ImageNet 这种对象识别任务上也有效,但它不太容易扩展,学到的表示维度通常比较低。
所以很长一段时间里,我并不觉得这会是自监督学习的最终答案。直到大概五年前,我的一个博士后 Stéphane Deny,以及其他一些相关工作,开始用另外一种方法来避免塌缩。它们不是对比式方法,而是通过最大化某种信息量,迫使编码器输出的信息保持“有信息”,从而防止系统直接忽略输入。
这一条路后来发展成了 Barlow Twins,之后又有 VICReg,再往后还有基于蒸馏的方法。与此同时,Meta 那边也有 DINO、DINOv2、DINOv3。这些结果让事情变得很清楚:我们确实已经有办法避免塌缩,而且这些办法在图像表示学习上非常有效。
所以我后来才真正觉得,这就是未来应该走的方向。当然,这里面的理论解释还没有完全建立起来。为什么这些防塌缩方法能这么有效,我们其实还没有彻底理解。
LLM 已经把房间里的空气吸光了
主持人:过去 FAIR 一直是很好的研究环境。扎克伯格也很希望你留下来。那为什么你最后还是决定离开 Meta,去做 AMI Labs?在外面到底能做什么,是在 Meta 里面做不了的?
Yann LeCun:至少到去年之前,FAIR 还是一个非常适合做研究的地方。但过去这一年,Meta 的重心已经明显转向更短期的目标了,本质上就是追赶整个 LLM 产业。这就导致那些更长期、更激进、也更偏离当前主流范式的项目,被放到了更次要的位置。
当一家整个公司都在往某个范式上投入数千亿美元,而你这个 Chief AI Scientist 又到处说,单靠放大 LLM 永远不可能走到人类级 AI,你自然不会特别受欢迎。
当然,Mark Zuckerberg 和 Andrew Bosworth 其实都对我在做的项目非常支持。我们当时在 Meta 内部把这个项目叫作 AMI,Advanced Machine Intelligence,后来这也成了新公司的名字。但我后来还是去跟 Mark 讲,这个方向在公司内部从政治上已经很难继续推了。因为LLM 基本上已经把房间里的空气都吸光了。
这是第一点。第二点是,这些 JEPA 想法真正重要的应用,很多都在 Meta 根本不会碰的地方:工业流程控制、机器人、现实世界系统,还有很多其他应用。Meta 的核心业务还是连接人与人,而不是这些现实世界问题。
所以,一方面是公司内部模式发生了变化,另一方面是外部应用空间太大,再加上融资条件也成熟了,JEPA 的结果又开始真正跑出来了,这时候离开就变成了一件顺理成章的事。
从卫星到经济系统,世界模型真正要去的地方在哪里?
主持人:我们其实一直在用 Barlow Twins 和 JEPA 训练卫星模型,效果非常好,也很简单。所以我完全相信你说的抽象表示这条路。但现在的问题是,我们训练出了一个很漂亮的模型,它对太空这个尺度有效,可它和其他尺度上的 JEPA 模型之间并没有真正连接起来。你觉得未来这些模型会不会形成某种分层 JEPA,最后在不同尺度之间连起来?
Yann LeCun:我觉得最终你确实需要某种分层 JEPA。低层表示负责更短时、更细节的预测,但这些预测通常会很快偏离现实。所以你还需要更高层的表示,去做更长时间、更大尺度的预测。
高层级的一个特点,就是它能在更大的时间尺度和空间尺度上做预测。这其实也和物理里的很多思想相通,比如重整化群理论,也和卷积网络里的池化有某种相似性。
而且不同物理现象之间,本来就共享很多共性。我觉得这给了我们一种可能:建出某种更通用的模型,让一个领域里形成的“直觉”,能迁移到另一个领域里去。比如你如果真的理解流体动力学,哪怕只是高层的直觉,你既可以用它理解涡喷发动机,也可以用它理解机翼,也可以用它理解帆的受力。
我们人类其实一直就是这么工作的。甚至猫也是。你的猫对于自己的身体动力学、摩擦、跳跃这些事,理解得可能比任何你能写出来的方程都好。它知道什么时候能跳上去,怎么连续借力,怎么控制身体,这是一种非常高层但非常有效的世界模型。
主持人:我们会前还聊到另一个问题,就是经济模型。如果从政策、预测、经济这些角度看,经济系统里有公司、个人、政府、组织这些“微观主体”,又有国家、区域、产业这样的“宏观结构”。你怎么理解这种从微观到宏观的问题?
Yann LeCun:不管是在物理、经济学、社会科学还是工程里,最难的问题之一,都是怎么从微观过渡到中观,再到宏观。
在物理里,这件事其实最近几年才真正开始有一些理论上的突破。比如怎么从分子碰撞推到 Boltzmann 方程,再怎么从 Boltzmann 方程走到 Navier–Stokes 方程。再往上,你又会遇到更高层的问题,比如给定一个特定翼型和特定速度,怎么直接预测升力和阻力。
其实现在已经有人在做这类事情:先用 Navier–Stokes 方程或者计算流体动力学生成训练数据,再训练神经网络去直接预测升力和阻力。这样得到的是一个可微分模型,你甚至可以直接对形状反传梯度,去优化形状本身。类似例子在材料科学、宇宙学模拟等很多地方都已经出现了。
经济学会更难,因为你面对的不是遵守牛顿定律的分子,而是大量在有限信息下做半理性决策的人和组织。这样形成的涌现行为,本来就极难建模。
所以在我看来,这类问题最后很可能还是要靠一种数据驱动的方法,也就是类似 JEPA 的路径,去找到好的抽象。宏观经济学其实也一直在做这件事,只不过是用更高层的抽象,把微观细节进一步压掉。
我觉得这种方法在经济学里会有很多应用,在金融里可能也有应用。但金融的问题是,大部分数据本质上都是噪音,信噪比非常低。
原视频链接:youtu.be/wDeXfFQcJxk
(投稿或寻求报道:zhanghy@csdn.net)
"48 小时,与 50+ 位大厂技术决策者,共探 AI 落地真路径"
由 CSDN&奇点智能研究院联合举办的「全球机器学习技术大会」正式升级为「奇点智能技术大会」。
2026 奇点智能技术大会将于 4 月 17-18 日在上海环球港凯悦酒店正式召开,大会聚焦大模型技术演进、智能体系统工程、OpenClaw 生态实践及 AI 行业落地等十二大专题板块,特邀来自BAT、京东、微软、小红书、美团等头部企业的 50+ 位技术决策者分享实战案例。旨在帮助技术管理者与一线 AI 落地人员规避选型风险、降低试错成本、获取可复用的工程方法论,真正实现 AI 技术的规模化落地与商业价值转化。
这不仅是一场技术的盛宴,更是决策者把握 2026 AI 拐点的战略机会。
热门跟贴