哈喽,大家好,我是小今。这篇来聊聊AI圈争论不休的自回归视觉模型,NEPA偏要反其道而行,靠“猜特征”就比肩顶尖水平,这下刷新认知了!

在 AI 圈,有个挺有意思的争论:搞视觉模型到底要不要走“自回归”这条路?比如AI大佬LeCun就不太看好自回归,还另辟蹊径提出了“联合嵌入预测架构(JEPA)”,这些年JEPA相关的成果也确实不少。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

AI视觉“路线之争”:预测还是表征?

这种方法,不管是最早的“对比学习”,还是后来的“掩码重建”,核心都是在磨练AI的“特征提取”能力。得是个顶级的“侦探”,能把图里的每个细节都记录下来,然后用这些细节去完成各种任务。

打开网易新闻 查看精彩图片

但语言AI的玩法完全不一样。像GPT这种,它不是在“提取特征”,而是在“预测”!你给它前面几个字,它就猜下一个字可能是啥,然后把这套“猜字”的逻辑内化成对语言的理解。

这意味着它不需要先费劲巴拉地“编码”再“干活”,直接就能出结果。这一下就点醒了研究人员:是不是视觉AI也不用死磕“特征提取”了,直接学“生成式预测”,效率反而更高?

打开网易新闻 查看精彩图片

当然,把“猜”的思路搬到视觉上,之前也有人尝试过。比如早期的iGPT,虽然有点效果,但在处理长图、理解深层语义方面就有点力不从心。

而LeCun的JEPA呢,它虽然也玩“猜”,但猜的是“潜在特征”,而且还得靠一个“动量编码器”来校准目标,还没到那种纯粹的“生成式预测”境界。所以,到底有没有一种更直接、更纯粹的“预测”方式,能让视觉AI也像语言AI一样强大呢?

打开网易新闻 查看精彩图片

一鸣惊人:NEPA的“猜特征”新思路

NEPA这个名字听起来有点酷,它其实是“下一嵌入预测自回归”(Next Embedding Prediction Autoregression)的缩写。别被这长串词吓到,它的核心思想其实特别简单,甚至有点“极简主义”的味道。

打开网易新闻 查看精彩图片

接下来,模型就像语言模型猜下一个字那样,根据前面所有图块的“身份ID”,去猜测下一个图块的“身份ID”会是什么!就这么一套“猜下一个特征”的玩法,让视觉模型也走上了“自回归”的康庄大道。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

“防作弊”高招:让模型老老实实学习

你可能会想,这听起来是挺简单,但模型会不会耍小聪明啊?比如每次都输出差不多的“身份ID”来敷衍了事?或者干脆偷偷“瞄一眼”后面的答案,假装自己是预测出来的?别急,NEPA团队早就把这些“小伎俩”给考虑到了,并且设计了三个关键的机制,确保模型能老老实实、真真切切地去“预测”:

打开网易新闻 查看精彩图片

这就像咱们看侦探小说,你只能一页一页往下翻,不能直接翻到结局看凶手是谁,对吧?NEPA也一样,当它预测当前图块的“身份ID”时,只能参考它前面的图块,后面的图块是完全看不见的。这一下就逼着模型必须得真的去“预测”,而不是“作弊”或“死记硬背”。

打开网易新闻 查看精彩图片

模型猜完“身份ID”后,总得和真实的“身份ID”对比一下看看猜得准不准,然后根据误差来调整自己。但是,在计算误差的时候,真实的“身份ID”是“固定不动”的,它不会跟着模型的调整而变化。

这就像你射箭,靶子必须是静止的,要是靶子跟着你的箭跑,那你永远都能“命中”,但其实啥都没练到。这个小技巧,能有效防止模型学成个“老好人”,每次都输出一模一样的“身份ID”来蒙混过关。

打开网易新闻 查看精彩图片

最让人惊喜的是,NEPA用的就是普普通通的视觉Transformer(ViT)架构,没有额外加什么解码器,也不用那些复杂的“图像分词器”,更不用像有些模型那样,又是复杂的数据增强,又是苦哈哈地找负样本。

它就靠着“猜下一个特征”这一个信号,像个穿着白T恤的运动健将,干干净净地就上场比赛了!这种“化繁为简”的思路,本身就充满了智慧。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

“十八般武艺”:NEPA的惊人表现

这么一套“简单粗暴”的方法,性能到底怎么样?别看它简单,实力一点不含糊,甚至可以用“惊艳”来形容!

更有意思的是,虽然它训练时只能“看前面”,但做分割这种需要全局信息的任务时,只要把那个“因果掩码”解开,让它能看全图就行了,灵活性超高!

打开网易新闻 查看精彩图片

换个更大的ViT-L(加强版Transformer),直接飙到85.3%!这成绩,比MoCo v3、BEiT这些老牌强手都厉害,跟MAE、JEPA这些当前顶尖模型也能打个平手!

打开网易新闻 查看精彩图片

深层理解,而非表面功夫:最让我惊艳的是它的“迁移能力”。NEPA训练的时候压根没学过“重建像素”这种细活,但把它用在ADE20K语义分割任务上,ViT-B和ViT-L竟然分别拿到了48.3%和54.0%的mIoU(衡量分割精度的指标)!

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

真正“看懂”:NEPA如何理解世界

这说明它能抓住图像的主体信息。更神奇的是,它预测出的特征向量,和同一物体其他图块的特征向量竟然非常相似!这简直了,说明模型真的“悟”了,它知道“这是一只完整的狗”,而不是一堆零散的像素块。它不仅能看到局部,还能把这些局部连接起来,形成对一个完整物体的认知。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

超越视觉:AI“大一统”的未来之光

NEPA的出现,可不仅仅是给视觉AI家族又添了个“能打的成员”这么简单。它最大的意义,是提供了一种可能“通用”的思路,为AI领域的“大一统”指明了方向!

打开网易新闻 查看精彩图片

我们就不需要为每种模态绞尽脑汁设计各种复杂的适配方案了,直接靠“嵌入”这个通用“货币”就能打通所有数据!这对整个跨模态AI的发展,简直是提供了新的“说明书”啊!

说到底,NEPA最打动我的地方,就是它用“简单”打败了“复杂”。它没有那些眼花缭乱的架构,就靠着“像猜词一样猜图像特征”这个核心想法,加上几个巧妙的“防作弊”小设计,就达到了顶尖的性能。

这真的给我们提了个醒:有时候AI研究不一定要追求“堆料”,换个思路,把那些成熟但看似不相干的方法用对地方,说不定就能带来更大的突破!或许,AI理解世界,并不需要那么多的“花里胡哨”,大道至简,方能见真章。

打开网易新闻 查看精彩图片