团队已经开源了BAGEL——新的,支持文本、图像、视频的端到端理解与生成,在标准基准测试中显著超越现有开源模型,并展现一系列复杂推理能力,包括自由图像操控、未来帧预测、3D空间操作、世界导航等。我们观察到,统一模型在增加参数与训练量的过程中,处理不同任务的智能逐渐涌现,从基础的图文理解和文生图,到多样化的editing,再到复杂的manipulation 详细的评测,模型的智能程度不断提升。
模型权重、训练/推理代码都已开源,欢迎试用、反馈~

论文题目: Emerging Properties in Unified Multimodal Pretraining 论文链接: https://arxiv.org/abs/2505.14683 代码链接: https://github.com/bytedance-seed/BAGEL 项目主页: https://bagel-ai.org/

商业闭源系统(GPT‑4o、Gemini 2.0)已展示出强大的跨模态推理与生成能力,但其训练细节与数据完全不可得,而学术/开源模型仍停留在「图文对 + 拼接扩散」的浅层融合,存在三大痛点:
架构割裂:理解/生成分属两条网络,信息被压缩在少量条件 token 中,长上下文推理受限。
数据贫乏:主要依赖静态图文对,缺乏真实世界的时序、物理与因果信号。
能力天花板:在复杂任务(自由图像操控、未来帧预测、世界导航)上与闭源模型存在数量级差距。
BAGEL 旨在通过开源统一架构 + 大规模交错数据,缩小学术与工业差距,让复杂多模态推理能力「平民化」。其核心突破点在于:
数据层面:引入视频帧间变化描述、网页图文段落等交错数据,建模真实世界的时空连续性。
架构层面:采用混合 Transformer 专家(MoT)架构,打破传统 “编码器 - 解码器” 瓶颈,实现理解与生成模块的语义无损交互。
在统一多模态模型的设计中,核心挑战是如何平衡理解与生成的异构需求。当前主流架构方案可分为三类
自回归视觉生成:使用离散视觉 tokenizer(如 VQGAN)将图像编码为 tokens,通过自回归 Transformer 直接预测下一 token(文本 / 视觉统一建模)。代表模型如Janus、Chameleon等。优势是架构简单,可复用现有 LLM 基建,易于实现端到端训练。但生成质量受限,视觉生成效果显著低于扩散模型(如 SDXL),因自回归的顺序生成难以建模复杂像素依赖;并且推理效率低,逐 token 生成导致长序列推理延迟高(如生成 1024x1024 图像需数千步)。
外接生成模型:使用LLM甚至VLM作为 backbone,生成语义condition,通过轻量级Adapter连接预训练扩散模型,其基于语义condition生成图像。代表模型如DreamLLM、SEED-X、MetaQuery、BLIP3-o等。优势是可服用预训练权重,收敛迅速;且受益于扩散模型的高保真图像合成能力,生成质量高。但存在语义瓶颈,LLM 需将长上下文压缩为少量 latent tokens(如 64x64 特征图),导致细节丢失,尤其在长序列推理中表现不佳;且跨模态交互弱,理解与生成模块通过Adapter间接连接,难以实现深度语义对齐。
统一集成Transformer:将 LLM 与扩散模型统一在单个 Transformer 架构中,共享自注意力层,支持端到端跨模态推理。代表模型如Transfusion、JanusFlow等。优势是无交互瓶颈,文本、图像、视频 tokens 在同一 Transformer 层中直接交互,避免信息压缩;且可扩展性强,支持大规模交错数据训练,兼容长上下文和复杂任务;最重要的是通过共享参数,理解与生成能力可协同优化,促进复杂推理能力的涌现。但存在的挑战很明显,训练成本高,需同时优化语言建模与扩散生成,计算资源需求显著高于前两类方案。

我们最终在BAGEL里选择了BAGEL 选择统一集成 Transformer的架构。考虑到以往方案理解模块与生成模块的参数独立优化,导致跨模态对齐不足。我们使用混合 Transformer 专家(MoT),让理解专家(处理Text / ViT tokens)与生成专家(处理 VAE tokens)共享自注意力层,实现语义信息的无损传递(如下图所示,MoT 架构的 MSE 损失收敛更快,CE Loss也稳定更低)。

更重要的是,MoT架构能支持复杂能力的涌现。大规模交错数据(如视频帧序列、网页图文段落)需要模型具备时间 - 空间联合建模能力。MoT集成架构允许模型学习跨模态的长期关联,而外接扩散模型因瓶颈限制难以捕捉此类细节。再者集成架构可扩展性强,BAGEL 后续可通过 RL 优化导航、物理模拟等需要端到端推理的任务。

如图所述,BAGEL 的数据体系以「跨模态交错性」和「语义丰富性」为核心,覆盖文本、图像、视频、网页四大模态,总量达数万亿token。除了基础的文本数据和图文数据对外,我们采集构造了大量的交错数据:

视频-文本交错数据:来自公开视频库(如 YouTube 教育视频、科普短片)+ 开源数据集 Koala36M(含交互场景)、MVImgNet2.0(多视角物体数据)。
网页 - 文本交错数据:来自OmniCorpus 网页数据集(含教程、百科、设计文档)+ 结构化编辑数据集(如 OmniEdit、UltraEdit)。
以及推理以增强数据:包括文生图、自由图像操控和智能编辑,使用开源VLM/LLM辅助构建推理过程。

我们采用四阶段渐进训练,逐步解锁复杂能力:
对齐阶段:仅训练视觉 - 语言连接器,对齐 ViT 与语言模型。
预训练阶段:全模型训练,以图像 - 文本对为主(占比 60%),初步掌握基础生成。
持续训练阶段:提升视频 / 网页数据比例(各占 15%),增加分辨率至 1024x1024,强化长上下文推理。
监督微调阶段:精选高质量指令数据,优化多轮对话与复杂编辑。

我们定义模型的涌现特性为随训练数据规模扩大而突然出现的复杂能力,这些能力无法通过早期训练阶段的表现预测。通过对训练过程的评估(以多个VLM Benchmark的结果取平均衡量理解能力,GenEval结果衡量文生图能力,StepFun提出的GEdit衡量基础图像编辑能力,以及我们提出的IntelligenBench衡量智能编辑能力),我们发现BAGEL能力发展的三阶段规律(以85%最终的性能定为”饱和“)。

第一阶段:基础能力的构建:模型首先学会了基础的图文理解(比如看图说话)和文生图能力。这是多模态模型的“基本功”。
第二阶段:多样化编辑能力的掌握:随着训练的深入,BAGEL 开始掌握更多样化的编辑技巧,比如根据简单的指令修改图片局部内容。上图展示了模型从不同训练token下的基础文生图和编辑能力。
第三阶段:复杂操控与推理能力的惊艳亮相:最有趣的是,当训练达到一定规模后,模型开始展现出一系列以前难以想象的复杂能力,包括:
自由图像操控 (Free-form Image Manipulation):不再局限于简单的指令,BAGEL 可以理解更复杂的、开放式的编辑意图,例如“把这只猫P得看起来很惊讶,并加上一些未来科技感的元素”。这背后需要模型对语义、风格、空间关系等多方面进行综合理解和推理。
未来帧预测 (Future Frame Prediction):给定一段视频的开头几帧,BAGEL 能够预测接下来可能发生的场景。这体现了模型对动态世界和物理规律的初步理解。
3D空间操作 (3D Manipulation):模型能够理解和操作与3D空间相关的指令,例如旋转物体、改变视角等。
世界导航 (World Navigation):在虚拟环境中,BAGEL 可以根据指令(如“向前走”、“向左转”)在场景中移动视角,仿佛拥有了初步的“空间感知”能力。
下图展示了模型在后期才涌现出的智能编辑能力。

BAGEL 在多模态理解、生成、编辑大大领域全面超越开源模型,并逼近商用系统(如 GPT-4o、Gemini 2.0)。以下是关键任务的详细表现。

我们选用MME、MMBench、MMMU、MathVista 等六大基准,覆盖感知、认知、推理,从上表结果可以发现:在 MMMU 和 MM-Vet 基准测试中,BAGEL显著超越开源统一模型Janus-Pro,提升了 14.3 分和 17.1 分。与 Qwen2.5-VL 和 InternVL2.5 等专用理解模型相比,BAGEL 在大多数这些基准测试中表现出更优越的性能,这表明我们的 MoT 设计在保持强大视觉理解能力的同时,有效缓解了任务冲突。

对于文生图,我们采用GenEval评测物体对齐与属性生成能力,采用WISE评测世界知识推理能力,从上表定量结果可以发现:在GenEval上BAGEL取得88% 总分,超越 SD3-Medium(74%)、Janus-Pro(80%),接近 FLUX.1-dev(82%)。在WISE上,BAGEL取得52% 原始得分,启用 “CoT” 后提升至 70%,比未使用 CoT 的版本高出 0.18,且显著超越了所有现有开源模型(之前的最佳成绩为 MetaQuery-XL 的 0.55),逼近 GPT-4o(80%)。

值得一提的是,BAGEL支持任意纵横比生成,而 Janus-Pro 仅能生成正方形图像。且中文 prompt 解析能力优异(如 “微缩景观,毛茸茸羊毛毡”),生成细节远超 SD3-Medium(需翻译英文输入)。

我们采用StepFun提出的GEdit-Bench评估模型的基础编辑能力,以及自建了IntelligentBench评价复杂的自由图像操作。前者侧重基础修改(如颜色替换、物体移除),而后者聚焦复杂多模态推理与任务组合能力,要求模型理解抽象指令、整合世界知识,并生成逻辑自洽的视觉输出。
上表结果显示,在GEdit-Bench上,BAGEL中英文得分均达 6.5+(满分 10),媲美专家编辑模型Step1X-Edit,超过Gemini 2.0。在我们新提出的 IntelligentBench上,BAGEL 取得了 44.9 的成绩,较现有开源模型 Step1X-Edit 高出30分,优势显著。而将 CoT 融入 BAGEL 后,其 Intelligent Score 从 44.9 提升至 55.3。这一性能提升主要归因于推理能力的加入,使模型能够利用世界知识并提供更为详细的编辑指导。
如上图所示,我们针对多样化的图像编辑场景进行了定性对比,将 BAGEL 与闭源产品 Gemini 2.0、GPT-4o 和 开源模型 Step1X-Edit、IC-Edit 进行了对标。结果显示,BAGEL 始终优于 Step1X-Edit 和 IC-Edit,并且超越了 Gemini 2.0 的能力。尽管 GPT-4o 能较好地应对这些场景,但其在编辑过程中常带来对原图的非预期修改,而 BAGEL 有效避免了这一问题。

上图(a)展示了 BAGEL 在仅给出简短提示时生成图像失败,但在采用基于 CoT 的思考范式后成功生成正确图像的情况。图(b)进一步展示了 IntelligentBench 中的若干代表性案例,这些任务需要通用知识或多步推理。在这些场景下,BAGEL 在思考内容的引导下展现出显著增强的图像编辑能力。

为了提升 BAGEL 在长序列视觉生成中的世界建模能力,我们通过增加训练数据中视频和导航数据的比例,对模型进行了微调。针对导航任务,我们构建了一个基于视频交错序列的数据集,并使用 ParticleSfM 对摄像机轨迹进行了标注。在图 14 中,我们展示了 BAGEL 的世界建模能力,包括世界导航、旋转和多帧生成。
从上图中可以看出,BAGEL 展现了强大的世界理解与模拟能力。它能够按照输入指令生成动态数量的图像,用于完成导航、旋转输入图像等任务,或根据给定提示生成多张图像。此外,BAGEL 在世界理解方面表现出优秀的泛化能力。例如,尽管仅在真实街景导航数据上进行训练,它仍能无缝扩展到墨水画、卡通和电子游戏等多种不同领域。

上图比较了拥有 BAGEL-1.5B 与 JanusPro-7B 及 Step1X-Edit(12B参数)在文生图和图像编辑任务上的表现。尽管 BAGEL-1.5B 体量明显较小,但在定性对比中,其表现超过了这两款更大规模的模型。此外,BAGEL-1.5B 与 BAGEL-7B 之间的差距凸显了模型规模扩展带来的性能提升,表明更大规模的 BAGEL 变体具有更大的潜力。

上图展示了 BAGEL 及其他先进模型的典型失败案例。对于包含特殊IP生成、复杂文本渲染、复杂人体姿态生成、主体生成的任务,当今的文本生成图像系统依然面临持续的挑战。在图像编辑方面,诸如交换物体位置或同时修改大量实例等操作,也对大多数现有模型构成考验。在一些复杂场景中,BAGEL 和 Gemini 2.0 都表现出在严格遵循给定指令方面的相似困难。相比之下,GPT-4o 在所有示例中表现最为稳定且成功。BAGEL 的性能可以通过增加包含文本的图像数据规模、提升模型容量或在最终后训练阶段应用基于RLHF来简单提升。
七、写在最后
我们尽可能开源了模型和代码,后续也会根据大家的反馈,优化代码和模型。欢迎大家多多使用demo,反馈bad case:Rsbuild App
另外,团队也在持续招人中,感兴趣的同学欢迎邮件联系
bagel@bytedance.com
llustration From IconScout By IconScout Store
-The End-
扫码观看!
本周上新!
“AI技术流”原创投稿计划
TechBeat是由将门创投建立的AI学习社区(www.techbeat.net)。社区上线600+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。
投稿内容
// 最新技术解读/系统性知识分享 //
// 前沿资讯解说/心得经历讲述 //
投稿须知
稿件需要为原创文章,并标明作者信息。
我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励
投稿方式
发送邮件到
melodybai@thejiangmen.com
或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。
关于我“门”
将门是一家以专注于数智核心科技领域的新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。
将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。
如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:
bp@thejiangmen.com
点击右上角,把文章分享到朋友圈
热门跟贴