哈喽,大家好,杆哥这篇评论,主要来分析何恺明颠覆AI格局!MAR模型打通视觉语言壁垒,AGI再进一步

打开网易新闻 查看精彩图片

在人工智能迈向通用智能(AGI)的路上,有个难题困扰业界多年:处理语言的AI和处理图像的AI,始终走在两条平行线上。直到何恺明团队的掩码自回归(MAR)模型横空出世,这道隐形裂痕终于有了弥合的希望。

打开网易新闻 查看精彩图片

一边是GPT系列靠“离散符号自回归”称霸语言领域,一边是Stable Diffusion等用“连续扩散”统治视觉生成。两种范式井水不犯河水,直到MAR模型的出现,给当前主流技术路线来了次“精准纠偏”。

强行“翻译”图像?矢量量化的致命短板

打开网易新闻 查看精彩图片

要理解MAR模型的颠覆性,得先搞懂视觉生成的核心痛点:擅长处理文字序列的Transformer架构,怎么看懂二维图像?

在扩散模型流行前,业界的主流方案是“矢量量化(VQ)”。简单说,就是把图像切成小块,再映射到一个“视觉词表”里,硬生生把连续的图像信号,变成类似文字的离散序列。

打开网易新闻 查看精彩图片

何恺明团队一针见血地指出了这种方法的荒谬。语言是人类创造的离散符号,而图像的光影、色彩都是连续信号,强行“翻译”必然出问题。

用VQ-VAE这类工具处理图像,不仅会造成信息丢失,让生成的图像模糊失真,还会让模型训练变得又复杂又不稳定。这就像把风景照强行转成文字再还原,细节早就没了。

MAR模型的核心贡献,就是打破了“自回归必须处理离散数据”的固有认知。它证明Transformer完全能直接处理连续的图像信号,不用再搞“视觉词表”这种中间环节。

打开网易新闻 查看精彩图片

碾压扩散模型?MAR实现速度质量双突破

打开网易新闻 查看精彩图片

如果说摒弃矢量量化是修正了语言模型的模仿者,那MAR对扩散模型的挑战,更是触及了当前AI热潮的根基。扩散模型虽强,却有个致命缺点:慢。

扩散模型生成图像,要经过几十甚至上百次迭代去噪,就像一层一层擦玻璃,实时应用根本跟不上。比如要做直播滤镜,等它生成完画面早就延迟了。

MAR模型用了更聪明的办法:随机掩码策略。训练时故意挡住部分图像补丁,让模型学习不同位置的上下文关系,相当于把扩散模型的“逐步去噪”能力给“折叠”了。

从数学本质看,两者都是建模数据概率分布,但MAR更直接。它不用设置复杂的时间步和噪声调度器,直接预测被遮挡的图像补丁就行。这就像跳过擦玻璃的过程,直接画出干净的画面。

AGI关键一步!原生多模态模型终现曙光

打开网易新闻 查看精彩图片

MAR模型的长远价值,在于它给真正的“原生多模态大模型”扫清了障碍。现在的GPT-4V、Gemini等,处理图像时要么外挂扩散解码器,要么用低效的离散接口,就像给文科生强行配理科工具。

而MAR的连续自回归框架,提供了统一方案。未来的大模型,Transformer核心既能处理文本的离散Token,又能处理图像、的连续特征向量,不用任何“翻译层”就能兼顾两边。

这种统一不只是工程简化,更可能催生新的智能涌现。当模型不用再把图像“翻译”成文字思考,它对物理世界的理解会更精细。就像用母语思考比用外语更透彻一样。

实测数据也印证了它的实力:生成一张图像耗时不到0.3秒,在ImageNet 256×256数据集上的FID得分低于2.0,不使用CFG时FID达2.35,远超其他基于标记的方法,最佳成绩甚至能和顶尖模型抗衡。

值得一提的是,MAR还融合了自回归和掩码生成的优势,用双向注意力机制让模型能看到所有标记,同时保持自回归特性,推理时能逐个生成标记,还支持同时预测多个标记,大幅提升效率。

重构AI版图?视觉生成迎“Transformer时刻”

打开网易新闻 查看精彩图片

何恺明团队的这项研究,本质上是给AI发展路径“纠偏”。深度学习发展至今,很多被奉为圭臬的技巧,比如矢量量化、复杂采样调度,其实只是没找到最优解时的权宜之计。

MAR模型确立的连续自回归范式,有望让视觉生成领域迎来类似NLP的“Transformer时刻”。这不仅意味着更快的生成速度和更高的图像质量,更让AI跨越模态鸿沟有了坚实桥梁。

对于普通人来说,这意味着未来的AI能更流畅地理解图片、和文字的关联;对于行业而言,实时高清图像生成、更智能的多模态交互等应用将加速落地。

何恺明团队的探索证明,AI的进步往往藏在对“理所当然”的质疑中。当视觉和语言模型真正打通,通用人工智能的梦想,或许比我们想象的更进一步。