来源:市场资讯

(来源:机器之心)

打开网易新闻 查看精彩图片

本文第一作者陈保友为上海科学智能研究院(下称上智院)主任研究员,主要研究方向为多模态理解生成;上智院研究员夏翰宸、涂鹏为共同一作。复旦大学教授、上智院 AI 科学家、上海创智学院全时导师朱思语为通讯作者。

如果把多模态大模型下一阶段的竞争概括成一句话,那就是:不只要更强,还要更快。当前主流视觉语言模型(Vision-Language Model,VLM)大多建立在自回归(Autoregressive,AR)范式上,模型理解能力持续提升,但 token-by-token 的串行解码机制,也让推理延迟与部署成本问题日益凸显。尤其是在文档理解、多模态 Agent 等长输出场景中,速度瓶颈已经开始直接影响模型的实际可用性。

相比之下,扩散式(Diffusion)解码具备天然的并行性,能够通过并行细化多个 token 来提升解码效率,理论上更适合长序列并行生成。然而,问题也很明确:如何在将 SOTA 自回归 VLM 转换为 Diffusion VLM 的过程中,保持模型性能不退化,始终是学术界面临的一大关键难题。

近期,上海科学智能研究院联合上海创智学院、复旦大学等发表了一项名为 BARD(Bridging Autoregressive and Diffusion)的研究工作。该研究提出了一套创新的桥接框架,能够将预训练的自回归 VLM 平滑转换为同架构、具备高效解码能力的扩散 VLM。实验表明,基于 Qwen3-VL 转换得到的 BARD-VL,在保持甚至超越原模型性能的同时,实测解码吞吐量最高提升达 3 倍。

打开网易新闻 查看精彩图片

  • 论文链接:https://arxiv.org/pdf/2604.16514

  • 代码仓库:https://github.com/fudan-generative-vision/Bard-VL.git

  • Huggingface:https://huggingface.co/collections/fudan-generative-ai/bard-vl

现状与挑战:AR 的瓶颈与 Diffusion 的困境

自回归 VLM 在视觉问答、文档理解及多模态 Agent 等任务中表现卓越。然而,随着生成序列长度的增加,串行解码带来的计算负担和响应延迟,正逐渐成为其实际落地的主要瓶颈。

扩散多模态模型(dVLM)通过多轮并行细化更新整个 Block 的 tokens,被视为提升生成效率的一条潜力路线。但在实践中,研究者发现,若直接将成熟的 AR 模型转换为大块扩散模型,模型能力往往会出现显著退化。这种性能损失,主要源于两种范式在预测条件与监督目标上的不一致:AR 模型侧重于在干净的因果前缀下预测下一个 token,而扩散模型则需在扰动状态下进行同位置去噪。

这种「监督错位」导致直接进行 KL 蒸馏的效果往往不尽如人意。因而,当前多模态生成仍未摆脱「高性能」与「高效率」之间的张力:自回归模型在能力上更成熟,但受限于串行解码,长序列场景下推理成本较高;扩散模型具备更强的并行生成潜力,却常因监督错位导致性能退化。如何兼顾两者,已成为多模态模型进一步规模化落地的关键问题。

BARD 核心机制:搭建范式迁移的「桥梁」

BARD 并非尝试从零训练一个原生扩散模型,而是提出了一套系统化的桥接框架,旨在实现「能力保持」与「高效解码」之间的解耦优化。

2.1 渐进式监督块合并(Progressive Supervised Block Merging)

打开网易新闻 查看精彩图片

为了避免从串行解码直接跳到大规模并行解码所带来的「跃迁式失败」,BARD 引入了渐进式调度策略。具体来说,模型首先从预训练 AR 模型出发,构建一个小块扩散锚点模型。随后,模型遵循(4,8,16,32)的块大小序列,逐阶段扩大并行解码粒度。这种设计使模型在每一阶段只需学习如何合并相邻的预测块,从而显著降低了学习难度。

2.2 阶段式扩散蒸馏(Stage-wise dVLM Distillation)

针对监督错位问题,BARD 重新定义了蒸馏目标。与其使用原始 AR 模型作为教师模型,BARD 采用前一阶段生成的扩散锚点模型进行监督。由于学生和教师模型均运行在扩散机制下,其监督信号的匹配度更高。实验证明,在 Block 尺寸为 32 的设置下,扩散蒸馏对 MMMU、RealWorldQA、MMMU-Pro 等指标的提升远超传统的自回归蒸馏。

2.3 工程优化:迈向实用的长序列训练

除了架构转换,BARD 还在训练策略和显存效率上进行了深度优化。

  • 混合噪声调度器(Mixed-noise Scheduler):传统的掩码扩散模型擅长补全缺失信息,但缺乏纠错能力。BARD 在掩码噪声的基础上,引入了针对可见 Token 的均匀破坏,使模型在训练中同时习得「补全」与「修正」能力,显著增强了在复杂场景下的鲁棒性。

  • 内存友好的训练布局:多模态序列通常包含大量视觉 Token,导致训练显存压力巨大。BARD 采用 Packed Sequence Layout,将输入上下文、clean response 与 noisy response 封装在同一序列中,并通过定制化的注意力掩码机制确保信息流向的正确性,极大地优化了长序列任务的训练效率。

实验结果:性能与效率的双重飞跃

研究团队基于开源的 LLaVA-OneVision-1.5 与 FineVision 数据集,清洗并构建了 4.4M 高质量训练数据,并在 7 项核心 Benchmark 上进行了全面评测。

3.1 综合能力对比

打开网易新闻 查看精彩图片

具体看,4B 规模下,BARD-VL 相比 Qwen3-VL 4B 在 7 项 benchmark 中提升了 5 项,包括 MMMU val +5.1、MME +8、RealWorldQA +1.4、MMStar +6.7 和 AI2D +1.8,仅在 MMMU-Pro 和 ChartQA 上略低于源模型。到 8B 规模,BARD-VL 则在 7 项中提升了 6 项,包括 MMMU val +1.6、MMMU-Pro +1.6、MME +14、RealWorldQA +1.2、MMStar +5.1 和 ChartQA +0.6。如果横向看开源 diffusion VLM,BARD-VL 8B 在这套评测里全面超过 LLaDA-V 8B,4B 版本也在全部 7 项上超过 Dimple-VL。

3.2 推理效率分析

更关键的是,这些提升不是靠「拿速度换能力」得来的。下图的 OCRBench 曲线显示,BARD-VL 4B 在一段很宽的 decoding throughput 区间里,都能保持更高准确率。在一个票据结构化信息抽取示例里,BARD-VL 只用了 6 次 diffusion refinement 就得到结果,而原始 Qwen3-VL 则需要 35 步自回归解码。对于文档理解、表单抽取、票据处理这类天然长输出任务,这种并行解码优势非常接近真实部署价值的改进。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

结论与展望

BARD 的核心贡献在于验证了:高性能自回归模型与高效扩散解码范式并非互斥。通过精心设计的桥接框架,我们可以系统地将 AR 模型的知识迁移至更高效的并行解码架构中。尽管目前的实验主要基于 Qwen 系列基座模型展开,但其展现出的可扩展性和鲁棒性,为未来开发更高效的多模态 Agent 和长上下文交互系统指出了方向。对于追求模型能力与推理效率平衡的研究者与开发者而言,BARD 提供了一条颇有参考价值的路径。

与此同时,这项工作的意义也体现在其与具体科学领域模型的结合上。例如,团队持续深耕的炎黄中华文明大模型,是一个面向早期中华文明研究的人文社科多模态基础模型,服务于历史、考古、古文字、语言学等研究场景,支撑知识问答、学术分析、时空重建与多模态 Agent 协同等关键任务。此次开源的 BARD-VL 所代表的多模态 Diffusion 底座能力,正是助力此类领域科学大模型兼顾性能与效率、走向真实科研与应用场景的重要基础。