当下在多模态大模型领域,模型的架构千差万别。就拿多模态生成来说,其模型架构主要以Diffusion或DiT为主;而多模态理解,则是一种组合式模型,本质是以语言模型为核心,再把其他的视觉信号映射到语言模型上。作为一款原生的多模态模型,Emu3的架构和前文提到的都不相同。

2024年6月,智源研究院在智源大会上首次提出了该模型。10月21日,该模型被正式推出,实现了图像、视频、文字三种不同模态的统一理解与生成。

Emu3:可实现不同模态的统一理解与生成

Emu3:可实现不同模态的统一理解与生成

据介绍,Emu3从模型训练之初,就秉持着实现统一的多模态生成和理解的设计理念,所以目前具备高质量的图像和视频生成、视觉语言理解等多模态能力。

具体来说:

从图像生成来看,该模型能够完成分辨率和风格不同的高质量图片的生成。

打开网易新闻 查看精彩图片

(来源:资料图)

从视频生成和视频续写来看,该模型既可以因果性地生成视频,又可以根据视频内容的上下文,预测接下来会发生什么。

打开网易新闻 查看精彩图片

(来源:资料图)

从视觉语言理解来看,该模型不仅能够理解图像,还能够理解视频。

打开网易新闻 查看精彩图片

图丨用户问题:Describe the landmark;模型回答:The image showcases the Brooklyn Bridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.(来源:资料图)

目前,在上述任务中,Emu3的表现已经超过SDXL、LLaVA-1.6、OpenSora等知名开源模型。如下图所示,在图像生成任务中,人类评估得分Emu3高于SD-1.5与SDXL。在视觉语言理解任务中,12项基准测试的平均得分,Emu3领先于LlaVA-1.6与LlaVA-1.5。在视频生成任务中,VBench基准测试得分,Emu3优于OpenSora 1.2。

打开网易新闻 查看精彩图片

(来源:资料图)

据悉,Emu3现已开源关键技术和模型。另外,值得一提的是,该模型开源到国际技术社区之后,很快便引发了海外开发者的热议。

打开网易新闻 查看精彩图片

(来源:资料图)

开启下一代多模态大模型的训练范式

Emu3之所以具备上述诸多能力,皆因为其背后使用的是同一个基础模型,即是通过预测下一个token来实现的(编者注:“token”是大模型领域里的一个基本概念,可以理解为文本数据中的一个单位,通常是词或子词)。

该模型的技术框架,包含一个视觉tokenizer,把图像、视频、文本的token放在同一个离散空间,用一个非常简单的Transformer Decoder-Only架构,基于自回归(Autoregressive)框架去训练。

那么,Emu3模型背后的这一技术新范式,和过去的范式有何区别?

王仲远表示:“第一,多模态肯定是大模型发展的下一个重要方向。”

如开头所说,现在的多模态,或是基于Diffusion架构来做生成,或是组合式模型,即把语言模型与对比语言-图像预训练结合的范式。

Emu3所探索的是把生成和理解统一,把文字、图像、视频从原生上、从最开始训练的时候就进行统一,不仅具备拓展性,而且使用的是Autoregressive的方式。这种类似于语言大模型的训练架构,能够解决大一统的问题。

他继续说:“第二,能够复用现有的硬件基础设施,同时也证明了规模定律(Scaling law),Emu3比前两代版本有了巨大的效果提升。”

这也验证了这种训练方式和框架,很有可能成为下一代多模态大模型的训练范式。

这里值得一提的是,智源研究院在此前开发“悟道”系列大模型时,还处于追赶大语言模型GPT3和GPT4的阶段,但本次多模态模型Emu3,是其首次先于国际社会发布,并率先验证了新的大一统的原生多模态技术路线。

OpenAI前首席科学家、联合创始人伊利亚·苏茨克维(Ilya Sutskever)曾多次表示:“只要能够非常好地预测下一个token,就能帮助人类达到通用人工智能(AGI,Artificial General Intelligence)。”

顺着这一维度思考,如果从大众和客户的角度来看,Emu3目前遵循的技术路线,是不是通往AGI更好的路线呢?

实际上,当前一些多模态理解大模型,是先把语言学到非常高的能力以后,再把视觉信息进行桥接,从而发挥语言的处理能力。

王仲远表示:“在我们看来这更像是一种打补丁的方式,不像人类大脑的原生方式。”

而Emu3的训练过程,则更接近于人类成长学习的过程,从一开始就训练图像、视频、文字,接收了各种不同模态的信号,展示出能解决这些不同问题的能力。

“从最终的效果来看,Emu3可以做到每一个方向上最优秀的模型效果,但这背后涉及到资源、训练时间、成本问题,以及包括各方面投入。作为一个研究机构,我们更重要的是开源这条技术路线,给行业指明一条新的方向,接下来需要大家一起来共同努力。”王仲远说。

在利用多模态通往AGI的道路上迈出崭新一步

在利用多模态通往AGI的道路上迈出崭新一步

正式推出Emu3的同时,王仲远也介绍了研发该模型的初衷和目标。

一方面,智源研究院坚持做原始创新,做高校做不了、企业不愿意做的研发。

他说:“Emu3是我们认为在整个大模型发展技术路线上必须要攻克的技术方向:原生多模态,统一理解和生成。”

另一方面,是为多模态大模型的训练范式指明方向。

“Emu3的意义很有可能会在一两年之后,让大家有更强烈的感知。”他说。

那么,令人好奇的是,该模型为何要选择Autoregressive的技术路线?

这正是因为,目前在多模态大的研究方向上,一直没有探索出真正的基础模型,而智源研究院希望能为整个行业指明一个方向。

开头也提到,早在2024年6月,Emu3就已经被提出。从那时到现在,又做了哪些研发工作呢?

据介绍,Emu3研发团队通过攻克一个又一个的技术难题,累积了不少核心技术和能力,不仅解决了如何把不同模态的数据统一成token等基础问题,也探索了统一训练到底要使用什么样的数据,以及不同模态数据的比例等内容。

因此,对比6月,该模型在图像生成和视频生成等能力上,都实现了大幅提升,整体效果已经超越很多开源模型。

下一步,基于Emu3,该团队将会探究模型的输入窗口如何变大、输出如何变长,以及如何实现更长时间的视频预测等方面的研究。

此外,王仲远也指出了智源研究院未来三至五年的工作重点。

首先,将继续研发原生多模态世界模型Emu系列,解决更大规模的数据、算力以及训练。

其次,由于统一多模态基座大模型是AI进入到物理世界非常重要的基座,因此也正在发力多模态具身大脑方面的研究。

最后,AI for Science,也是智源研究院非常关注的重要研究方向。

显然,在智源研究院看来,多模态是实现AGI的必经之路。而开启下一代多模态大模型训练范式的Emu3,正是该机构在探索这条道路时迈出的崭新一步。