算泥社区是集 “AI 大模型开发服务 + 算法 + 算力” 于一体的开源生态社区,欢迎关注!

人工智能研究中,Yann LeCun(杨立昆)有一个独特且经常引起争议的观点。

他认为仅靠以语言为中心、基于预测下一个词的规模化模型,无法通向真正具备常识、因果理解和规划能力的通用智能;它们缺乏对物理世界的内在表征与世界模型,无法自主学习和可靠推理,因此最多是强大的工具,而不是通往 AGI 的终极路径。

打开网易新闻 查看精彩图片

在他的《通往自主机器智能的道路》的重要立场论文中,他提出了实现人工智能的替代框架。

打开网易新闻 查看精彩图片

他还提出了一种预测世界模型的新架构: 联合嵌入预测架构 (Joint Embedding Predictive Architecture,JEPA)。

Yann LeCun已经离开了Meta,他的学术成果仍然在Meta发挥余热。

刚刚,Meta FAIR、香港科技大学、索邦大学、纽约大学联合发布了一个基于JEPA的视觉-语言模型VL-JEPA。

打开网易新闻 查看精彩图片

VL-JEPA架构彻底抛弃了传统视觉语言模型逐个Token生成的低效模式,转而在抽象的嵌入空间中直接预测语义,以一半的参数量实现了SOTA的性能,并为实时视频理解带来了近3倍的效率提升。

回归语义本质

现在的AI界都是被基于Transformer的自回归模型统治。

给AI看一张图,它就像个絮絮叨叨的解说员,必须一个词接一个词地往外蹦句子。这种方式看似直观,实则在训练和推理上都极其昂贵。

Yann LeCun早已对这种低效模式感到不满。

这篇论文的研究者也认为,智能的核心在于理解和预测,而不在于是否能把每一句话都修饰得文采飞扬。

基于这种理念,他们推出了VL-JEPA的视觉语言模型。

打开网易新闻 查看精彩图片

传统模型在训练时不得不关注每一个单词的选择、句式的排列甚至语气的模仿。

这对理解图像内容来说,其实是巨大的浪费。

就像你问一个人“灯关了吗?”,他回答“灯灭了”或者“房间变暗了”在意思上是完全一样的,但在传统的训练中,模型却要为了这两个在字面上完全正交(不重叠)的句子耗费大量算力去拟合。

VL-JEPA换了一种活法。

它不再执着于预测下一个单词是什么,而是直接预测目标文本在数学空间中的“坐标”——也就是连续的语义嵌入(Embeddings)。

在这个高维空间里,“灯灭了”和“房间变暗了”的坐标靠得非常近。模型只需要学会指那个方向,而不需要纠结具体用哪个词来描述。

这种非生成式(Non-generative)的设计,让模型得以剥离掉那些与任务无关的语言表象,专注于最核心的语义信息。

这不仅简化了学习目标,更让模型在参数量减少50%的情况下,依然能打出比肩甚至超越庞大生成式模型的战绩。

架构的精密运转逻辑

VL-JEPA的设计哲学体现在其精简而高效的四个核心组件中。这套架构不需要在那儿猜词,而是通过计算向量的距离来理解世界。

打开网易新闻 查看精彩图片

X-Encoder(视觉编码器)负责看。

它接收视频或图像输入,将其压缩成一串紧凑的视觉嵌入向量。这里研究团队选用的是冻结参数的V-JEPA 2 ViT-L模型。这个模型本身就在自监督视觉任务上表现优异,能把复杂的视频画面浓缩成高密度的信息流。

Y-Encoder(文本编码器)负责听和理解目标。

它将目标文本(比如问题的答案或图片的描述)映射到一个连续的潜在空间中。这个空间就是模型学习的靶场。在这个空间里,语义相近的句子会聚在一起,无关的信息被过滤。这一步至关重要,它决定了模型思考的质量。

Predictor(预测器)是整个架构的大脑。

它接收来自X-Encoder的视觉信息,同时接收一个文本查询(Query,比如“这人在干嘛?”),然后它的任务就是预测出Y-Encoder会生成什么样的嵌入向量。注意,它预测的是一个数学向量,而不是具体的文字。这部分采用的是Llama-3的Transformer层进行初始化,让它天生就具备一定的语言理解底子。

Y-Decoder(文本解码器)是一个轻量级的翻译官。

它在训练阶段完全不参与,只有在人类真的需要看文字结果时,它才会被唤醒,把模型预测出来的数学向量翻译成人类能读懂的句子。

这套系统的训练目标非常纯粹:最小化预测出的嵌入向量和真实文本嵌入向量之间的距离。

为了防止模型偷懒(比如把所有输入都映射成同一个点),团队使用了InfoNCE损失函数。

这种对比学习的方法,一边拉近正确答案的距离,一边把无关的干扰项推远,迫使模型在那个抽象的数学空间里构建出清晰的语义地图。

这种设计让VL-JEPA在处理那些没有标准答案的任务时如鱼得水。

在真实世界里,同一个动作的描述千变万化,传统模型要在离散的词表中寻找唯一解极其痛苦,而VL-JEPA只需要在连续空间里找到那个语义聚类中心即可。

选择性解码艺术

视频理解一直是AI领域的硬骨头,尤其是实时视频流。

以前的模型每一帧都要处理,每一秒都要尝试生成描述,计算量大到无法在可穿戴设备或机器人上实时运行。

VL-JEPA在这里展现了它作为非自回归模型的巨大优势。

由于VL-JEPA输出的是连续的语义嵌入流,它可以像心电图一样实时监测这个信号的变化。

如果画面中的语义没有发生剧烈波动,模型就保持沉默,不做任何繁重的文字解码工作。

只有当监测到的语义方差超过某个阈值——意味着画面中发生了新的事件时,它才唤醒解码器,输出一段文字描述。

这种选择性解码(Selective Decoding)机制,让计算资源得到了极致的优化。

打开网易新闻 查看精彩图片

实验数据显示,在保证同等语义捕捉质量(CIDEr分数)的前提下,VL-JEPA的解码操作次数减少了约2.85倍。

对于智能眼镜、家庭机器人这种对延迟和功耗极其敏感的设备来说,这几乎是质的飞跃。

模型可以始终在线观察世界,但只在必要时开口汇报,既省电又敏捷。

相比之下,传统的VLM(视觉语言模型)受限于自回归的生成方式,必须把上一个词算出来才能算下一个词,这不仅延迟高,而且无法在生成过程中动态更新语义。

VL-JEPA的嵌入流则是并行的、连续的,能跟随视频流即时刷新对世界的认知。

在严苛对比下的性能统治力

为了证明这套架构不仅仅是理论上好听,Meta团队进行了一场极其严苛的对比实验。他们构建了一个对照组:一个标准的Token生成式VLM。

这个对照组使用了完全相同的视觉编码器、相同的空间分辨率、相同的帧率、完全一样的训练数据(包括DataComp、YFCC-100M等海量图文对以及HowTo100M视频数据)、一样的Batch Size,甚至训练迭代次数都一模一样。

唯一的区别就在于,一个是在数据空间里预测Token,一个是在潜在空间里预测Embedding。

结果令人信服。在同等算力预算下,VL-JEPA在零样本(Zero-shot)分类和描述任务上,性能曲线爬升得比传统VLM快得多。

打开网易新闻 查看精彩图片

在训练了500万个样本后,VL-JEPA的Top-5分类准确率达到了35.3%,而对照组只有27.2%。

这种差距随着训练的进行一直保持着。

更关键的是,VL-JEPA的训练参数只有1.6B(16亿),比许多动辄百亿参数的大模型轻量得多,却干出了更好的活。

打开网易新闻 查看精彩图片

在广泛的视频分类和检索基准测试中,VL-JEPA的表现全面超越了CLIP、SigLIP2和Perception Encoder这些赫赫有名的前辈。

特别是在SSv2、EgoExo4D这种强调动作和过程的视频数据集上,VL-JEPA的优势尤为明显。

这说明它不仅仅是看懂了画面里的物体(外观),更看懂了物体在如何运动和交互(动态)。

VL-JEPA不仅仅是一个只会看视频的分类器,经过第二阶段的监督微调(SFT)后,它摇身一变成了一个全能选手。

在视觉问答(VQA)任务上,尽管参数量只有1.6B,VL-JEPA依然与InstructBLIP、Qwen-VL这些大块头打得有来有回。

在GQA(组合视觉推理)、TallyQA(复杂计数)以及POPE(物体幻觉检测)等数据集上,它的表现都接近了SOTA水平。

打开网易新闻 查看精彩图片

更令人兴奋的是它在世界预测(World Prediction)任务上的表现。

这个任务要求模型看一张起始图和一张终点图,然后判断中间发生了什么动作。这实际上是在测试模型是否理解物理世界的因果关系。

在这个领域,VL-JEPA不仅击败了同量级的VLM,甚至在准确率上超过了GPT-4o、Claude-3.5和Gemini-2这些顶级的大语言模型。

打开网易新闻 查看精彩图片

虽然这些大模型拥有千亿级的参数,但在纯粹的视觉因果推理上,专注于嵌入空间预测的VL-JEPA展现出了更敏锐的物理直觉。

这种能力意味着VL-JEPA非常适合作为具身智能(Embodied AI)的大脑。

机器人需要理解它所处环境的物理规律,预测自己动作的后果,而不需要每一步都停下来写一篇小作文来分析现状。

Meta团队还非常诚实地展示了各种失败的尝试,告诉大家什么行得通,什么行不通。

打开网易新闻 查看精彩图片

关于预训练,他们发现如果跳过第一阶段的海量图文预训练,直接上SFT,分类准确率会暴跌21.7%。

这说明地基必须打牢,没有大规模数据的浸泡,模型学不到通用的视觉语言对齐。

关于学习率,Y-Encoder的学习率必须非常小心地调整。

实验表明,给文本编码器设置0.05到0.1倍的学习率乘数是最佳甜点。太快了模型会发散,太慢了学不动。

关于损失函数,InfoNCE展现了统治力。

相比于简单的余弦距离(Cosine)或L1/L2距离,InfoNCE自带的抗坍缩(Anti-collapse)属性对于维持嵌入空间的多样性至关重要。虽然在VQA任务上余弦距离表现稍好,但在分类和检索等通用任务上,InfoNCE是绝对的最优解。

有趣的是,他们还尝试了不同的文本编码器。

虽然默认使用的是EmbeddingGemma-300M,但实验证明更大的编码器确实能带来更好的性能。

特别是那些视觉对齐过的文本编码器(如PE模型),能让分类和检索分数进一步上涨。

这暗示了VL-JEPA架构还有巨大的潜力可挖,只要换上更强的组件,性能天花板还能往上顶。

VL-JEPA标志着视觉语言模型从学会说话向学会思考迈出了坚实的一步。

参考资料:

https://arxiv.org/pdf/2512.10942

https://openreview.net/pdf?id=BZ5a1r-kVsf

‍‍