三种AI看世界的方式：token之外还有路吗？|token|因果性|序列|新论文

「预测下一个词」这套逻辑，正在面临两场有趣的挑战。

杨立昆（Yann LeCun）今年反复念叨一个观点：大语言模型（Large Language Models，大语言模型）的token预测，本质上是个「高级 autocomplete（自动补全）」。真正让机器理解世界，得换条路。

他押注的JEPA（联合嵌入预测架构），加上另一派提出的CAWA（因果世界模型），正在形成三条截然不同的技术路线。这不是学术圈的概念游戏——理解它们的差异，能帮你判断接下来几年哪些产品方向值得跟。

一张图看懂：三种架构的核心差异

如果把三种方法摆在一起对比，核心分歧在「输入什么、预测什么、怎么学习」这三个环节。

大语言模型吃的是离散token序列，输出下一个token的概率分布，靠海量文本自监督训练。JEPA吃的是视频帧的抽象表征，输出未来帧的表征预测，靠视频自监督学习。CAWA更激进，直接建模物理变量之间的因果关系，输出反事实场景推演，靠结构化因果知识训练。

简单说：一个玩文字接龙，一个玩视频猜谜，一个玩物理推演。

这张图的价值在于，它把「世界模型」这个模糊概念拆成了可对比的工程选择。不是谁更「智能」的哲学辩论，是实打实的架构取舍。

大语言模型：压缩即智能？

这条路线的主流叙事来自OpenAI。他们的核心假设是：足够好的下一个token预测，会自发涌现出对世界的理解。

工程上这很优雅。文本是廉价的数据源，Transformer（一种神经网络架构）的并行计算效率极高，scaling law（规模定律）给出了清晰的投入产出预期——堆数据、堆算力，能力曲线可预测地上升。

但杨立昆的批评也很具体。他指出，语言模型对物理世界的理解是「寄生」的——它描述重力，是因为训练数据里有很多关于重力的描述，而非真正理解物体下落。这种知识是陈述性的、统计性的，而非因果性的、可操作的。

一个典型症状是空间推理的脆弱性。让语言模型描述「把杯子从桌子左边移到右边」，它能说对。但追问「如果桌子突然倾斜15度，杯子会怎么动」，错误率陡增。因为它没有内化物理约束，只是在匹配训练数据中的语言模式。

更麻烦的是规划能力。语言模型可以生成「做蛋糕」的步骤清单，但面对「烤箱温度失控」这类未在训练数据中充分覆盖的异常，它缺乏真正的因果推演机制来动态调整方案。

JEPA：放弃生成，专注表征

杨立昆的JEPA走了另一条路。关键设计是：不直接预测像素，预测的是视频帧的抽象表征。

具体怎么运作？编码器把当前帧压缩成一个低维向量，另一个编码器处理未来帧，然后一个预测网络学习：给定当前表征和动作，未来表征应该是什么。损失函数只关心表征空间的距离，不关心像素重建的精度。

这解决了一个核心矛盾。生成式视频模型（比如Sora）需要预测每一个像素，计算成本极高，且容易在无关细节上浪费算力。JEPA把「理解」和「生成」解耦——理解世界不需要完美重建画面，只需要捕捉影响决策的关键变量。

一个有趣的工程细节：JEPA的表征学习是「非对比」的。传统自监督方法需要构造正负样本对，JEPA直接最小化预测表征与实际表征的差异，简化了训练流程。

但JEPA也有明显的边界。它处理的是可观测的感官数据，对不可见的因果机制（比如「为什么杯子会碎」背后的材料应力）缺乏显式建模。它的世界是隐式的、功能性的，而非显式的、可解释的。

CAWA：把因果写进架构

CAWA派走得更极端。他们的核心假设是：真正的世界模型必须是因果图，而非关联模式。

架构上，CAWA显式分离三类变量：可观测的环境状态、智能体的动作、不可见的因果机制。学习过程不是预测感官数据，而是推断最能解释观测数据的因果结构。一旦有了因果图，就能进行反事实推理——「如果我当初做了X，结果会怎样」。

这对应一个真实的产品需求：机器人的故障恢复。传统方法遇到异常就重启或求助人类，CAWA理论上可以诊断「是哪个因果环节断裂」，并生成修复方案。

但代价也很现实。因果发现是计算困难的，需要大量干预数据（主动做实验），而不仅仅是被动观察。工业场景里，让机器人随意「做实验」来学因果，成本和安全风险都极高。

另一个瓶颈是因果变量的先验。CAWA需要人类预先定义「哪些变量可能构成因果」，这限制了它在开放域的扩展性。相比之下，语言模型和JEPA的输入空间是统一的（token或像素），更容易规模化。

三条路线的工程现实

把三条路线拉回产品视角，差异更清晰。

语言模型当前的优势是通用接口和生态成熟度。任何能用文本描述的任务，都能快速接入。但幻觉问题和物理 grounding（ grounding 指模型输出与现实世界的对应关系）的缺失，限制了它在高风险物理场景的直接应用。

JEPA的甜点场景是视频理解和机器人控制。Meta已经把它用在了视频内容审核和推荐系统的底层。它的工程风险在于：表征学习的质量高度依赖编码器设计，而「好的表征」缺乏像perplexity（困惑度，衡量语言模型预测能力的指标）这样简单的评估指标。

CAWA目前更像研究前沿。它的直接应用可能先在工业数字孪生、药物分子设计这类「因果结构相对明确、干预成本可控」的封闭域。开放域的通用因果学习，短期内看不到工程路径。

一个值得关注的交叉点：JEPA+语言模型的混合架构。用语言模型提供高层任务分解和常识知识，用JEPA处理低层感知运动控制。这种分层设计可能是近期最务实的机器人方案。

为什么现在讨论这个

2024年的行业信号很密集。Figure AI的人形机器人开始进宝马工厂，特斯拉Optimus（特斯拉人形机器人）的迭代速度超预期，国内智元、宇树的产品也在快速落地。这些场景对「物理世界理解」的需求是刚性的，不是聊天式的。

同时，语言模型的边际收益在递减。GPT-4级别的模型已经能处理绝大多数文本任务，再往上堆规模，用户感知不明显。资本和人才正在寻找下一个高杠杆的技术变量。

世界模型就是这个变量。但「世界模型」本身是个篮子概念，装得下完全不同的技术路线。理解JEPA和CAWA与语言模型的本质差异，能帮你识别哪些是真正的新架构探索，哪些是旧酒装新瓶的营销话术。

杨立昆的赌注很大。他在多个场合表示，JEPA路线需要5-10年才能成熟，但一旦突破，将带来「比LLM更根本的AI进步」。这个时间尺度意味着：现在入场布局，不算早；等它完全成熟再跟进，可能错过窗口。

CAWA派的声音相对小众，但因果推断在学术界的积累深厚。如果机器人数据飞轮真正转起来（足够多的部署量产生足够多的干预数据），CAWA的方法论可能会快速工程化。

给从业者的判断

如果你是做AI产品的，这三条路线的分化意味着：

语言模型不会消失，但它的角色会收敛。它更适合作为「意图理解层」和「知识接口层」，而非「世界模拟层」。别指望它独自搞定机器人或自动驾驶的物理交互。

JEPA值得密切关注，尤其是Meta的开源动态。如果它的表征学习效果能在更多公开基准上验证，可能会复现当年Transformer的开源生态效应。视频理解、具身智能的创业者，应该提前熟悉这套技术栈。

CAWA目前风险最高，但潜在回报也最大。如果你在工业、医疗、科学计算这类「因果结构有价值、数据生成成本高」的领域，可以考虑与学术团队合作，探索领域特定的因果建模方案。通用CAWA平台，短期内不现实。

最后，警惕「世界模型」的概念滥用。任何能处理序列数据的模型都可以被包装成「世界模型」，真正的区分标准是：它能否进行反事实推理？能否从有限观测推断因果结构？能否在分布外场景保持鲁棒？

这三个问题，语言模型答不好，JEPA答一部分，CAWA试图全答但还没答完。

技术路线的选择，最终是问题域的匹配。没有通吃的架构，只有对特定世界结构假设更敏感的架构。理解这些假设，比追逐最新论文更重要。

三种AI看世界的方式：token之外还有路吗？

热搜

热门跟贴

热搜

热门跟贴

相关推荐

1分钟烧光4亿Token！OpenAI最疯狂的男人，逼奥特曼亲自加额度

强化学习的进化：从PPO到MaxRL，LLM推理训练的算法演进史

NeurIPS 2025 | DePass：通过单次前向传播分解实现统一特征归因

由豆包付费想到，AI到底会长成一门什么生意

ApdativeNN：建模类人自适应感知机制，突破机器视觉不可能三角

Anthropic联创定下deadline：2028年AI实现自我进化，没有人类了

对话上交大程远：AI的终局不在云端，而在“感算一体”的物理世界

斯坦福宣布AI战略重组：将HAI与数据科学合体，李飞飞任校长顾问

ACL 2026｜AI for聋哑群体，港理工开源思考型手语翻译模型

RouteMoA：无需预推理的动态路由，实现高效多智能体混合

00后小哥复刻Claude最强神话模型OpenMythos

DeepSeek V4最大的遗憾

横扫室内3D场景，港科大（广州）打造单目开放词汇占据预测新SOTA

情感投资信号：15个被误读的亲密细节

与火山引擎深度合作，荣威推出全球首个 AI 序列 “家越”

CMU等团队：PAT3D把文生3D从能看推进到能模拟、能交互

男子上一秒还在质疑导航的准确性，下一秒拐弯后瞬间相信了

这就是最基础的逻辑了，所以学校不教逻辑学

莫氏鸡煲上线汤料包5分钟售罄4000多份，累计卖出4万多份，总销售额破160万元，记者实测：1分钟抢到两包

顶级神箭手仅凭祖传绝技曲线射箭，竟一人干掉整支弓猎手大队