「预测下一个词」这套逻辑,正在面临两场有趣的挑战。

杨立昆(Yann LeCun)今年反复念叨一个观点:大语言模型(Large Language Models,大语言模型)的token预测,本质上是个「高级 autocomplete(自动补全)」。真正让机器理解世界,得换条路。

打开网易新闻 查看精彩图片

他押注的JEPA(联合嵌入预测架构),加上另一派提出的CAWA(因果世界模型),正在形成三条截然不同的技术路线。这不是学术圈的概念游戏——理解它们的差异,能帮你判断接下来几年哪些产品方向值得跟。

一张图看懂:三种架构的核心差异

如果把三种方法摆在一起对比,核心分歧在「输入什么、预测什么、怎么学习」这三个环节。

大语言模型吃的是离散token序列,输出下一个token的概率分布,靠海量文本自监督训练。JEPA吃的是视频帧的抽象表征,输出未来帧的表征预测,靠视频自监督学习。CAWA更激进,直接建模物理变量之间的因果关系,输出反事实场景推演,靠结构化因果知识训练。

简单说:一个玩文字接龙,一个玩视频猜谜,一个玩物理推演。

这张图的价值在于,它把「世界模型」这个模糊概念拆成了可对比的工程选择。不是谁更「智能」的哲学辩论,是实打实的架构取舍。

大语言模型:压缩即智能?

这条路线的主流叙事来自OpenAI。他们的核心假设是:足够好的下一个token预测,会自发涌现出对世界的理解。

工程上这很优雅。文本是廉价的数据源,Transformer(一种神经网络架构)的并行计算效率极高,scaling law(规模定律)给出了清晰的投入产出预期——堆数据、堆算力,能力曲线可预测地上升。

但杨立昆的批评也很具体。他指出,语言模型对物理世界的理解是「寄生」的——它描述重力,是因为训练数据里有很多关于重力的描述,而非真正理解物体下落。这种知识是陈述性的、统计性的,而非因果性的、可操作的。

一个典型症状是空间推理的脆弱性。让语言模型描述「把杯子从桌子左边移到右边」,它能说对。但追问「如果桌子突然倾斜15度,杯子会怎么动」,错误率陡增。因为它没有内化物理约束,只是在匹配训练数据中的语言模式。

更麻烦的是规划能力。语言模型可以生成「做蛋糕」的步骤清单,但面对「烤箱温度失控」这类未在训练数据中充分覆盖的异常,它缺乏真正的因果推演机制来动态调整方案。

JEPA:放弃生成,专注表征

杨立昆的JEPA走了另一条路。关键设计是:不直接预测像素,预测的是视频帧的抽象表征。

具体怎么运作?编码器把当前帧压缩成一个低维向量,另一个编码器处理未来帧,然后一个预测网络学习:给定当前表征和动作,未来表征应该是什么。损失函数只关心表征空间的距离,不关心像素重建的精度。

这解决了一个核心矛盾。生成式视频模型(比如Sora)需要预测每一个像素,计算成本极高,且容易在无关细节上浪费算力。JEPA把「理解」和「生成」解耦——理解世界不需要完美重建画面,只需要捕捉影响决策的关键变量。

一个有趣的工程细节:JEPA的表征学习是「非对比」的。传统自监督方法需要构造正负样本对,JEPA直接最小化预测表征与实际表征的差异,简化了训练流程。

但JEPA也有明显的边界。它处理的是可观测的感官数据,对不可见的因果机制(比如「为什么杯子会碎」背后的材料应力)缺乏显式建模。它的世界是隐式的、功能性的,而非显式的、可解释的。

CAWA:把因果写进架构

CAWA派走得更极端。他们的核心假设是:真正的世界模型必须是因果图,而非关联模式。

架构上,CAWA显式分离三类变量:可观测的环境状态、智能体的动作、不可见的因果机制。学习过程不是预测感官数据,而是推断最能解释观测数据的因果结构。一旦有了因果图,就能进行反事实推理——「如果我当初做了X,结果会怎样」。

这对应一个真实的产品需求:机器人的故障恢复。传统方法遇到异常就重启或求助人类,CAWA理论上可以诊断「是哪个因果环节断裂」,并生成修复方案。

但代价也很现实。因果发现是计算困难的,需要大量干预数据(主动做实验),而不仅仅是被动观察。工业场景里,让机器人随意「做实验」来学因果,成本和安全风险都极高。

另一个瓶颈是因果变量的先验。CAWA需要人类预先定义「哪些变量可能构成因果」,这限制了它在开放域的扩展性。相比之下,语言模型和JEPA的输入空间是统一的(token或像素),更容易规模化。

三条路线的工程现实

把三条路线拉回产品视角,差异更清晰。

语言模型当前的优势是通用接口和生态成熟度。任何能用文本描述的任务,都能快速接入。但幻觉问题和物理 grounding( grounding 指模型输出与现实世界的对应关系)的缺失,限制了它在高风险物理场景的直接应用。

JEPA的甜点场景是视频理解和机器人控制。Meta已经把它用在了视频内容审核和推荐系统的底层。它的工程风险在于:表征学习的质量高度依赖编码器设计,而「好的表征」缺乏像perplexity(困惑度,衡量语言模型预测能力的指标)这样简单的评估指标。

CAWA目前更像研究前沿。它的直接应用可能先在工业数字孪生、药物分子设计这类「因果结构相对明确、干预成本可控」的封闭域。开放域的通用因果学习,短期内看不到工程路径。

一个值得关注的交叉点:JEPA+语言模型的混合架构。用语言模型提供高层任务分解和常识知识,用JEPA处理低层感知运动控制。这种分层设计可能是近期最务实的机器人方案。

为什么现在讨论这个

2024年的行业信号很密集。Figure AI的人形机器人开始进宝马工厂,特斯拉Optimus(特斯拉人形机器人)的迭代速度超预期,国内智元、宇树的产品也在快速落地。这些场景对「物理世界理解」的需求是刚性的,不是聊天式的。

同时,语言模型的边际收益在递减。GPT-4级别的模型已经能处理绝大多数文本任务,再往上堆规模,用户感知不明显。资本和人才正在寻找下一个高杠杆的技术变量。

世界模型就是这个变量。但「世界模型」本身是个篮子概念,装得下完全不同的技术路线。理解JEPA和CAWA与语言模型的本质差异,能帮你识别哪些是真正的新架构探索,哪些是旧酒装新瓶的营销话术。

杨立昆的赌注很大。他在多个场合表示,JEPA路线需要5-10年才能成熟,但一旦突破,将带来「比LLM更根本的AI进步」。这个时间尺度意味着:现在入场布局,不算早;等它完全成熟再跟进,可能错过窗口。

CAWA派的声音相对小众,但因果推断在学术界的积累深厚。如果机器人数据飞轮真正转起来(足够多的部署量产生足够多的干预数据),CAWA的方法论可能会快速工程化。

给从业者的判断

如果你是做AI产品的,这三条路线的分化意味着:

语言模型不会消失,但它的角色会收敛。它更适合作为「意图理解层」和「知识接口层」,而非「世界模拟层」。别指望它独自搞定机器人或自动驾驶的物理交互。

JEPA值得密切关注,尤其是Meta的开源动态。如果它的表征学习效果能在更多公开基准上验证,可能会复现当年Transformer的开源生态效应。视频理解、具身智能的创业者,应该提前熟悉这套技术栈。

CAWA目前风险最高,但潜在回报也最大。如果你在工业、医疗、科学计算这类「因果结构有价值、数据生成成本高」的领域,可以考虑与学术团队合作,探索领域特定的因果建模方案。通用CAWA平台,短期内不现实。

最后,警惕「世界模型」的概念滥用。任何能处理序列数据的模型都可以被包装成「世界模型」,真正的区分标准是:它能否进行反事实推理?能否从有限观测推断因果结构?能否在分布外场景保持鲁棒?

这三个问题,语言模型答不好,JEPA答一部分,CAWA试图全答但还没答完。

技术路线的选择,最终是问题域的匹配。没有通吃的架构,只有对特定世界结构假设更敏感的架构。理解这些假设,比追逐最新论文更重要。