TransDiff：最简洁的AR Transformer+Diffusion图像生成方法|ar|diffusion|transdiff|transformer|深度思考模型

大家好，很高兴为大家介绍我们的新工作--Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression，后面我们简称TransDiff。

首先，TransDiff是目前最简洁的、将AR Transformer与Diffusion结合用于图像生成方法。TransDiff将离散输入（如类别、文本等）、连续输入（图像等）经过AR Transformer编码为图像语义表征，而后将表征通过一个较小的Diffusion Deocder解码为图片。

其次，我们提出了一种新的自回归范式--MRAR（Multi-Reference Autoregression）。此范式类似NLP领域的In-context Learning（ICL）：通过学习上文同类别图片生成质量更好、更多样的图片，唯一的区别是上文的图片是模型自己生成的。

论文标题： Marrying Autoregressive Transformer and Diffusion with Multi-Reference Autoregression 论文链接： https://arxiv.org/pdf/2506.09482 代码链接： https://github.com/TransDiff/TransDiff 模型： https://huggingface.co/zhendch/Transdiff

一、具体介绍

为了节省读者的时间，我们抛弃论文的结构，用Q&A这种更‘人话’方式介绍TransDiff。这些问题也是我们研究的动机。

问：为什么使用Transformer？我们工作中AR Transformer编码出了什么信息？

答：早期的CLIP工作以及后来大模型时代层出不穷的VL模型已经证明Transformer在图像理解领域的优势。尤其是在CLIP工作中，ViT模型可以将图片的表征对齐到语义空间（文字bert表征与图片的ViT表征cosine相似度）。

相似的，实验证明：TransDiff中AR Transformer也是将类别和图片编码至图片的高级（对比像素）语义空间。以下将不同类别的256维特征随机进行拼接后生成得到图片，不同于其他模型（VAR、LlamaGen等）的像素编辑，定性实验展现出了模型的语义编辑能力。

问：TransDiff使用较小Diffusion Deocder是否有制约？是否优于单纯Diffusion和AR Transformer方法？

答：TransDiff的deocder使用DiT结构，使用Flow Matching范式。diffusion占总体参数的1/3，参数量显著低于主流diffusion模型。但是对比能够搜集到的所有单纯Diffusion和AR Transformer方法，TransDiff在Benchmark上还是有一定优势，至少是“打的有来有回”。

问：TransDiff很像MAR，是否只是MAR的简单模仿？

答：TransDiff与MAR虽然结构上很像，但是模型展现的特点截然不同。首先，MAR是在像素（或patch）上生成，没有显性的语义表征，其次由于MAR使用的Diffusion Deocder过于简单（n层MLP Layer）导致decoder表现力有制约。因此，从下图可以看出：MAR无法“一步生图”，且图像patch是在自回归过程中逐步迭代“完善”。

问：MRAR好在哪里？对比AR Transformer中常用的Token-Level AR 和 Scale-Level AR优势吗？

答：首先对比Token-Level AR和Scale-Level AR，TransDiff with MRAR在在Benchmark上有着较大的优势。其次，我们发现语义表征多样性越高，图像质量越高。而MRAR相较于Scale-Level AR可以显著提升语义表征多样性。

二、最后放一些demo

三、One More Thing

TransDiff with MRAR在未经视频数据训练的情况下，展现出了连续帧生成的潜力。所以后续也会将TransDiff应用在视频生成领域，大家敬请期待。

llustration From IconScout By Scout Stores

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线600+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信（yellowsubbj）投稿，沟通投稿详情；还可以关注“将门创投”公众号，后台回复“投稿”二字，获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。