智源推出原生多模态世界模型Emu3，能模拟人脑原生方式

DeepTech深科技

2024-10-24 12:01 ·北京

当下在多模态大模型领域，模型的架构千差万别。就拿多模态生成来说，其模型架构主要以Diffusion或DiT为主；而多模态理解，则是一种组合式模型，本质是以语言模型为核心，再把其他的视觉信号映射到语言模型上。作为一款原生的多模态模型，Emu3的架构和前文提到的都不相同。

2024年6月，智源研究院在智源大会上首次提出了该模型。10月21日，该模型被正式推出，实现了图像、视频、文字三种不同模态的统一理解与生成。

Emu3：可实现不同模态的统一理解与生成

Emu3：可实现不同模态的统一理解与生成

据介绍，Emu3从模型训练之初，就秉持着实现统一的多模态生成和理解的设计理念，所以目前具备高质量的图像和视频生成、视觉语言理解等多模态能力。

具体来说：

从图像生成来看，该模型能够完成分辨率和风格不同的高质量图片的生成。

（来源：资料图）

从视频生成和视频续写来看，该模型既可以因果性地生成视频，又可以根据视频内容的上下文，预测接下来会发生什么。

（来源：资料图）

从视觉语言理解来看，该模型不仅能够理解图像，还能够理解视频。

图丨用户问题：Describe the landmark；模型回答：The image showcases the Brooklyn Bridge, a prominent suspension bridge in New York City, recognized by its distinctive towers and the web of cables that support it. This iconic structure connects the boroughs of Brooklyn and Manhattan.（来源：资料图）

目前，在上述任务中，Emu3的表现已经超过SDXL、LLaVA-1.6、OpenSora等知名开源模型。如下图所示，在图像生成任务中，人类评估得分Emu3高于SD-1.5与SDXL。在视觉语言理解任务中，12项基准测试的平均得分，Emu3领先于LlaVA-1.6与LlaVA-1.5。在视频生成任务中，VBench基准测试得分，Emu3优于OpenSora 1.2。

（来源：资料图）

据悉，Emu3现已开源关键技术和模型。另外，值得一提的是，该模型开源到国际技术社区之后，很快便引发了海外开发者的热议。

（来源：资料图）

开启下一代多模态大模型的训练范式

Emu3之所以具备上述诸多能力，皆因为其背后使用的是同一个基础模型，即是通过预测下一个token来实现的（编者注：“token”是大模型领域里的一个基本概念，可以理解为文本数据中的一个单位，通常是词或子词）。

该模型的技术框架，包含一个视觉tokenizer，把图像、视频、文本的token放在同一个离散空间，用一个非常简单的Transformer Decoder-Only架构，基于自回归（Autoregressive）框架去训练。

那么，Emu3模型背后的这一技术新范式，和过去的范式有何区别？

王仲远表示：“第一，多模态肯定是大模型发展的下一个重要方向。”

如开头所说，现在的多模态，或是基于Diffusion架构来做生成，或是组合式模型，即把语言模型与对比语言-图像预训练结合的范式。

Emu3所探索的是把生成和理解统一，把文字、图像、视频从原生上、从最开始训练的时候就进行统一，不仅具备拓展性，而且使用的是Autoregressive的方式。这种类似于语言大模型的训练架构，能够解决大一统的问题。

他继续说：“第二，能够复用现有的硬件基础设施，同时也证明了规模定律（Scaling law），Emu3比前两代版本有了巨大的效果提升。”

这也验证了这种训练方式和框架，很有可能成为下一代多模态大模型的训练范式。

这里值得一提的是，智源研究院在此前开发“悟道”系列大模型时，还处于追赶大语言模型GPT3和GPT4的阶段，但本次多模态模型Emu3，是其首次先于国际社会发布，并率先验证了新的大一统的原生多模态技术路线。

OpenAI前首席科学家、联合创始人伊利亚·苏茨克维（Ilya Sutskever）曾多次表示：“只要能够非常好地预测下一个token，就能帮助人类达到通用人工智能（AGI，Artificial General Intelligence）。”

顺着这一维度思考，如果从大众和客户的角度来看，Emu3目前遵循的技术路线，是不是通往AGI更好的路线呢？

实际上，当前一些多模态理解大模型，是先把语言学到非常高的能力以后，再把视觉信息进行桥接，从而发挥语言的处理能力。

王仲远表示：“在我们看来这更像是一种打补丁的方式，不像人类大脑的原生方式。”

而Emu3的训练过程，则更接近于人类成长学习的过程，从一开始就训练图像、视频、文字，接收了各种不同模态的信号，展示出能解决这些不同问题的能力。

“从最终的效果来看，Emu3可以做到每一个方向上最优秀的模型效果，但这背后涉及到资源、训练时间、成本问题，以及包括各方面投入。作为一个研究机构，我们更重要的是开源这条技术路线，给行业指明一条新的方向，接下来需要大家一起来共同努力。”王仲远说。

在利用多模态通往AGI的道路上迈出崭新一步

在利用多模态通往AGI的道路上迈出崭新一步

正式推出Emu3的同时，王仲远也介绍了研发该模型的初衷和目标。

一方面，智源研究院坚持做原始创新，做高校做不了、企业不愿意做的研发。

他说：“Emu3是我们认为在整个大模型发展技术路线上必须要攻克的技术方向：原生多模态，统一理解和生成。”

另一方面，是为多模态大模型的训练范式指明方向。

“Emu3的意义很有可能会在一两年之后，让大家有更强烈的感知。”他说。

那么，令人好奇的是，该模型为何要选择Autoregressive的技术路线？

这正是因为，目前在多模态大的研究方向上，一直没有探索出真正的基础模型，而智源研究院希望能为整个行业指明一个方向。

开头也提到，早在2024年6月，Emu3就已经被提出。从那时到现在，又做了哪些研发工作呢？

据介绍，Emu3研发团队通过攻克一个又一个的技术难题，累积了不少核心技术和能力，不仅解决了如何把不同模态的数据统一成token等基础问题，也探索了统一训练到底要使用什么样的数据，以及不同模态数据的比例等内容。

因此，对比6月，该模型在图像生成和视频生成等能力上，都实现了大幅提升，整体效果已经超越很多开源模型。

下一步，基于Emu3，该团队将会探究模型的输入窗口如何变大、输出如何变长，以及如何实现更长时间的视频预测等方面的研究。

此外，王仲远也指出了智源研究院未来三至五年的工作重点。

首先，将继续研发原生多模态世界模型Emu系列，解决更大规模的数据、算力以及训练。

其次，由于统一多模态基座大模型是AI进入到物理世界非常重要的基座，因此也正在发力多模态具身大脑方面的研究。

最后，AI for Science，也是智源研究院非常关注的重要研究方向。

显然，在智源研究院看来，多模态是实现AGI的必经之路。而开启下一代多模态大模型训练范式的Emu3，正是该机构在探索这条道路时迈出的崭新一步。

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴