上智院联合复旦等开源 BARD-VL：多模态Diffusion模型新SOTA|diffusion|vl|上智院|复旦|实验|序列|模态

来源：市场资讯

（来源：机器之心）

本文第一作者陈保友为上海科学智能研究院（下称上智院）主任研究员，主要研究方向为多模态理解生成；上智院研究员夏翰宸、涂鹏为共同一作。复旦大学教授、上智院 AI 科学家、上海创智学院全时导师朱思语为通讯作者。

如果把多模态大模型下一阶段的竞争概括成一句话，那就是：不只要更强，还要更快。当前主流视觉语言模型（Vision-Language Model，VLM）大多建立在自回归（Autoregressive，AR）范式上，模型理解能力持续提升，但 token-by-token 的串行解码机制，也让推理延迟与部署成本问题日益凸显。尤其是在文档理解、多模态 Agent 等长输出场景中，速度瓶颈已经开始直接影响模型的实际可用性。

相比之下，扩散式（Diffusion）解码具备天然的并行性，能够通过并行细化多个 token 来提升解码效率，理论上更适合长序列并行生成。然而，问题也很明确：如何在将 SOTA 自回归 VLM 转换为 Diffusion VLM 的过程中，保持模型性能不退化，始终是学术界面临的一大关键难题。

近期，上海科学智能研究院联合上海创智学院、复旦大学等发表了一项名为 BARD（Bridging Autoregressive and Diffusion）的研究工作。该研究提出了一套创新的桥接框架，能够将预训练的自回归 VLM 平滑转换为同架构、具备高效解码能力的扩散 VLM。实验表明，基于 Qwen3-VL 转换得到的 BARD-VL，在保持甚至超越原模型性能的同时，实测解码吞吐量最高提升达 3 倍。

论文链接：https://arxiv.org/pdf/2604.16514
代码仓库：https://github.com/fudan-generative-vision/Bard-VL.git
Huggingface：https://huggingface.co/collections/fudan-generative-ai/bard-vl

现状与挑战：AR 的瓶颈与 Diffusion 的困境

自回归 VLM 在视觉问答、文档理解及多模态 Agent 等任务中表现卓越。然而，随着生成序列长度的增加，串行解码带来的计算负担和响应延迟，正逐渐成为其实际落地的主要瓶颈。

扩散多模态模型（dVLM）通过多轮并行细化更新整个 Block 的 tokens，被视为提升生成效率的一条潜力路线。但在实践中，研究者发现，若直接将成熟的 AR 模型转换为大块扩散模型，模型能力往往会出现显著退化。这种性能损失，主要源于两种范式在预测条件与监督目标上的不一致：AR 模型侧重于在干净的因果前缀下预测下一个 token，而扩散模型则需在扰动状态下进行同位置去噪。

这种「监督错位」导致直接进行 KL 蒸馏的效果往往不尽如人意。因而，当前多模态生成仍未摆脱「高性能」与「高效率」之间的张力：自回归模型在能力上更成熟，但受限于串行解码，长序列场景下推理成本较高；扩散模型具备更强的并行生成潜力，却常因监督错位导致性能退化。如何兼顾两者，已成为多模态模型进一步规模化落地的关键问题。

BARD 核心机制：搭建范式迁移的「桥梁」

BARD 并非尝试从零训练一个原生扩散模型，而是提出了一套系统化的桥接框架，旨在实现「能力保持」与「高效解码」之间的解耦优化。

2.1 渐进式监督块合并（Progressive Supervised Block Merging）

为了避免从串行解码直接跳到大规模并行解码所带来的「跃迁式失败」，BARD 引入了渐进式调度策略。具体来说，模型首先从预训练 AR 模型出发，构建一个小块扩散锚点模型。随后，模型遵循（4，8，16，32）的块大小序列，逐阶段扩大并行解码粒度。这种设计使模型在每一阶段只需学习如何合并相邻的预测块，从而显著降低了学习难度。

2.2 阶段式扩散蒸馏（Stage-wise dVLM Distillation）

针对监督错位问题，BARD 重新定义了蒸馏目标。与其使用原始 AR 模型作为教师模型，BARD 采用前一阶段生成的扩散锚点模型进行监督。由于学生和教师模型均运行在扩散机制下，其监督信号的匹配度更高。实验证明，在 Block 尺寸为 32 的设置下，扩散蒸馏对 MMMU、RealWorldQA、MMMU-Pro 等指标的提升远超传统的自回归蒸馏。

2.3 工程优化：迈向实用的长序列训练

除了架构转换，BARD 还在训练策略和显存效率上进行了深度优化。

混合噪声调度器（Mixed-noise Scheduler）：传统的掩码扩散模型擅长补全缺失信息，但缺乏纠错能力。BARD 在掩码噪声的基础上，引入了针对可见 Token 的均匀破坏，使模型在训练中同时习得「补全」与「修正」能力，显著增强了在复杂场景下的鲁棒性。

内存友好的训练布局：多模态序列通常包含大量视觉 Token，导致训练显存压力巨大。BARD 采用 Packed Sequence Layout，将输入上下文、clean response 与 noisy response 封装在同一序列中，并通过定制化的注意力掩码机制确保信息流向的正确性，极大地优化了长序列任务的训练效率。

实验结果：性能与效率的双重飞跃

研究团队基于开源的 LLaVA-OneVision-1.5 与 FineVision 数据集，清洗并构建了 4.4M 高质量训练数据，并在 7 项核心 Benchmark 上进行了全面评测。

3.1 综合能力对比

具体看，4B 规模下，BARD-VL 相比 Qwen3-VL 4B 在 7 项 benchmark 中提升了 5 项，包括 MMMU val +5.1、MME +8、RealWorldQA +1.4、MMStar +6.7 和 AI2D +1.8，仅在 MMMU-Pro 和 ChartQA 上略低于源模型。到 8B 规模，BARD-VL 则在 7 项中提升了 6 项，包括 MMMU val +1.6、MMMU-Pro +1.6、MME +14、RealWorldQA +1.2、MMStar +5.1 和 ChartQA +0.6。如果横向看开源 diffusion VLM，BARD-VL 8B 在这套评测里全面超过 LLaDA-V 8B，4B 版本也在全部 7 项上超过 Dimple-VL。

3.2 推理效率分析

更关键的是，这些提升不是靠「拿速度换能力」得来的。下图的 OCRBench 曲线显示，BARD-VL 4B 在一段很宽的 decoding throughput 区间里，都能保持更高准确率。在一个票据结构化信息抽取示例里，BARD-VL 只用了 6 次 diffusion refinement 就得到结果，而原始 Qwen3-VL 则需要 35 步自回归解码。对于文档理解、表单抽取、票据处理这类天然长输出任务，这种并行解码优势非常接近真实部署价值的改进。

结论与展望

BARD 的核心贡献在于验证了：高性能自回归模型与高效扩散解码范式并非互斥。通过精心设计的桥接框架，我们可以系统地将 AR 模型的知识迁移至更高效的并行解码架构中。尽管目前的实验主要基于 Qwen 系列基座模型展开，但其展现出的可扩展性和鲁棒性，为未来开发更高效的多模态 Agent 和长上下文交互系统指出了方向。对于追求模型能力与推理效率平衡的研究者与开发者而言，BARD 提供了一条颇有参考价值的路径。

与此同时，这项工作的意义也体现在其与具体科学领域模型的结合上。例如，团队持续深耕的炎黄中华文明大模型，是一个面向早期中华文明研究的人文社科多模态基础模型，服务于历史、考古、古文字、语言学等研究场景，支撑知识问答、学术分析、时空重建与多模态 Agent 协同等关键任务。此次开源的 BARD-VL 所代表的多模态 Diffusion 底座能力，正是助力此类领域科学大模型兼顾性能与效率、走向真实科研与应用场景的重要基础。