阿里巴巴的"万能插件板"：让AI绘图的各种控制能力不再各自为战|插件板|知名企业|遮罩|阿里巴巴集团

这项由阿里巴巴集团ModelScope团队完成的研究，以预印本形式于2026年4月27日发布在arXiv平台，论文编号为arXiv:2604.24351v1，研究方向属于计算机科学中的机器学习领域。所有相关代码、模型和数据集均已开源，感兴趣的读者可通过上述编号检索完整论文。

**一、故事从一个真实的烦恼开始**

假设你是一位设计师，需要用AI生成一批图片。你希望画面构图精准，同时颜色偏暖，还要有某种特定的艺术风格——这三个需求同时存在。按照现有的做法，你需要分别找到三个不同的"控制工具"，而这三个工具往往由不同的研究团队开发，格式不兼容，安装方式各异，组合使用时还可能相互冲突。最终，要么你得请一位专业的工程师帮你把这些工具强行焊在一起，要么你只能妥协，放弃其中一两个需求。

这种困境并非个例，而是整个AI绘图行业的普遍现状。过去几年里，研究者们开发出了大量控制AI绘图的方法——有的能控制画面结构，有的能调整风格，有的能根据参考图片生成内容——但这些方法几乎都是孤立的"孤岛系统"，有各自的训练逻辑、参数格式和接入方式。就像一个厨房里摆满了来自不同品牌的厨具，每一件都很好用，但插头不兼容，操作手册语言不通，想同时开动根本无从下手。

正是为了解决这个问题，阿里巴巴的研究团队提出了一套名为**Diffusion Templates（扩散模板）**的统一插件框架。这套框架的核心思想，是给AI绘图模型的所有"控制能力"定义一个统一的标准接口——就像现代手机使用统一的USB-C接口，不管你接的是耳机、充电器还是硬盘，都用同一个口，不再需要一抽屉的转接头。

**二、现有AI绘图控制方法：百花齐放却各自为战**

在深入了解这套新框架之前，有必要先看看现在的AI绘图控制技术到底长什么样。

目前最主流的扩散模型——也就是Stable Diffusion、FLUX等AI绘图的"底层引擎"——本身已经相当强大，能根据文字描述生成高质量图片。但仅靠文字描述，往往不够精确。于是研究者们陆续开发了各种"附加控制"工具。

ControlNet是其中最知名的一类：它给AI绘图模型额外安装了一条"可训练的旁支线路"，让你可以用线稿、深度图、人体姿态图等视觉信息来精确控制生成图片的构图和结构。LoRA则是另一种思路：它通过极少量的额外参数，让模型"学会"某种特定风格或内容，比如某个特定人物的面孔或某种绘画风格，训练成本低、效果好，已经成为个性化定制的标配。IP-Adapter则专注于图片风格和内容的参考，允许你提供一张参考图，让AI生成与之相似的内容，同时还能用文字调整细节。

这些方法各有所长，但共同的问题在于：它们都是为特定的底层模型量身定制的，训练脚本、参数格式、运行时接入方式全都不同。想换一个底层模型，就得重新适配。想把两三种控制方式同时用，就得手动处理它们之间的冲突。这使得整个可控AI绘图的生态系统"强大但碎片化"——就像一个功能齐全但零件来自不同厂家的工具箱，每次使用前都要花大量时间拼装。

**三、统一插件框架的核心思想：三个部件，一套逻辑**

Diffusion Templates框架的设计哲学，借鉴了大语言模型（也就是ChatGPT那类AI）领域已经成熟的"插件"概念。在那个领域，一个强大的基础模型可以通过标准化接口接入各种外部工具——搜索引擎、计算器、代码执行器——而不需要修改模型本身。研究团队把这个思路迁移到AI绘图领域，但并非简单类比，而是着眼于一个非常实际的目标：一旦各种控制能力通过稳定接口暴露出来，训练、复用、组合和维护就都变得容易了。

整个框架围绕三个核心组件构建，三者之间的关系就像一条流水线。

第一个组件叫做**模板模型（Template Model）**。这是真正承担"学习控制能力"任务的神经网络模型。它的职责是接收各种各样的控制输入——可能是一张深度图、一个表示亮度的数字、一张参考图片，或者其他任何形式的控制信号——然后把这些输入转化成一种标准化的中间表示。每个模板模型的架构不受限制，可以是任何形式的神经网络，只要最终输出符合标准格式即可。

第二个组件叫做**模板缓存（Template Cache）**。这是连接"控制能力"和"底层绘图模型"的标准化接口，也是整个框架最关键的设计。模板缓存的格式被定义为底层扩散模型管道可以直接接受的输入参数的子集，这样新能力的接入就不需要修改模型的核心计算逻辑，只需要扩展参数就够了。研究团队目前推荐两种具体的缓存格式：一种是**KV缓存**，另一种是**LoRA**。KV缓存是注意力机制计算中存储"键值对"的中间结果，把控制信息注入到这里，可以直接影响生成过程，而且天然支持多个控制信号的拼接合并，就像把多张便利贴同时贴在同一块白板上。LoRA则是前面提到的低秩参数调整方法，在这里被当作一种"传递能力的数据格式"来使用，而不仅仅是一种固定的模型组件。

第三个组件叫做**模板管道（Template Pipeline）**。它负责统筹调度：加载一个或多个模板模型，分别运行它们得到各自的模板缓存，然后按照缓存类型合并（KV缓存直接在序列维度拼接，LoRA在秩维度拼接），最后把合并后的缓存和正常的文字提示一起送入底层扩散模型进行生成。模板模型本身不参与底层模型的迭代去噪过程，只在外部运行一次，因此额外计算开销很小。为了节省显存，管道还支持按需加载，即用到哪个模板模型才把它加载进显存，用完释放，这样同时启用很多个控制能力也不会导致显存爆炸。

模板模型的训练方式也遵循成熟的范式：基础模型的参数完全冻结，只训练新引入的旁支分支，训练目标和底层模型的预训练损失函数保持一致。训练过程分为两个阶段：第一阶段不涉及梯度计算，只做数据预处理和特征提取，结果可以缓存复用；第二阶段才是真正的梯度优化，这样可以避免重复计算，提高训练效率。

**四、十种控制能力的模型动物园：从简单到复杂的全面验证**

为了证明这套框架不只是理论上好看，研究团队在FLUX.2-klein-base-4B这个底层模型之上，实际训练和发布了十种不同类型的模板模型，覆盖了从最基础的视觉属性到复杂图像理解的广泛场景。下面按照从简单到复杂的顺序，逐一了解这十种能力。

**五、构图控制：让AI严格按照你的草图来画**

最直观的控制需求，莫过于控制画面的空间结构——物体在哪里、怎么摆放、比例如何。这个方向最早由ControlNet系统化，研究团队在同样的思路下训练了一个结构控制模板模型，但做了一个关键改变：不再用"残差分支注入"的方式传递控制信号，而是通过KV缓存来传递结构信息。

这个模型支持四种结构控制条件：深度图、轮廓线图、人体姿态图和法线图。深度图描述了画面中各元素的远近关系，轮廓线图勾勒了物体的边缘轮廓，人体姿态图标注了人物的关键骨骼点，法线图则记录了物体表面的朝向信息。给定同一张深度图，换上不同的文字提示，就能生成结构相同但内容各异的图片——比如同一只猫的轮廓，搭配"被彩色魔法粒子环绕"的提示生成一张奇幻风格图，搭配"沐浴在明亮阳光中"的提示生成一张写实风格图，两张图的猫的姿态和构图完全一致，只有画面氛围截然不同。

**六、亮度与色彩调整：用一个数字微调画面基调**

如果想要生成的图片整体偏亮一些，或者颜色偏暖一些，最简单粗暴的做法是直接调整RGB像素值。但这样做的问题是画面会失真，就像把照片亮度调到最高时那种"过曝"的感觉。研究团队因此训练了专门的亮度调整模板模型和颜色调整模板模型。

亮度模型的架构非常轻量，借鉴了团队此前开发的AttriCtrl方法，只包含一个位置编码层和几个全连接层。训练时，控制信号是一个归一化到0到1之间的标量，代表图片平均RGB强度。输入0.3生成偏暗的画面，输入0.7生成明亮的场景，模型会相应地调整全局光照、画面氛围乃至场景构成，而不只是机械地调整像素亮度，同时保持与文字提示的一致性。

颜色调整模型在亮度模型的基础上更进一步：控制信号不再是单一标量，而是三个数字，分别对应R、G、B三个颜色通道的平均值。提供暖色调的十六进制色值#D0B98A，生成的图片就会整体偏黄褐色调；提供冷色调的#5EA3AE，画面就会向青蓝色调偏移。值得注意的是，这种控制是"软性的"而非精确匹配——生成图片不会像调色盘一样严丝合缝地对应指定颜色，而是在颜色偏好、画面真实感和文字提示对齐之间找到自然的平衡点，这反而让结果更加自然。

**七、图像编辑加速：让"改图"不再慢如蜗牛**

AI绘图模型的一个重要用途是图像编辑：给定一张原图和一段描述变化的文字，生成修改后的图片。比如"给这只猫戴上一顶帽子"或者"让猫回头看向右边"。

底层模型本身支持这个功能，但有个明显的性能瓶颈：编辑任务需要同时处理原始图片和目标图片，序列长度大约是纯文字到图片任务的两倍，导致计算量急剧增加，速度很慢。研究团队的解决思路是：训练一个图像编辑模板模型，把底层模型对"如何处理图像编辑"的能力"转移"到模板路径中，让生成时不再需要以完整的双倍序列长度进行计算。

实验结果表明，这个模板模型在编辑质量上达到了与底层模型直接编辑相当的水平，而推理速度提升了约1.8倍。这不是精度的折中，而是通过框架设计实现的真实加速。

**八、超分辨率：让模糊的图片变得锐利**

超分辨率是指把低分辨率的模糊图片放大成高分辨率清晰图片的技术。这个方向有专门的成熟工具（如Real-ESRGAN），研究团队训练超分辨率模板模型的目的主要是验证框架的任务覆盖能力，而非与专业工具竞争。

这个模型的架构与图像编辑模板模型相同。使用方式是：先把低分辨率图片用双线性插值放大到目标分辨率（这一步很快，只是简单的像素插值，画面依然模糊），然后让模板模型补全缺失的高频细节。实验显示即便在大倍率放大时，输出图片依然相当清晰，但速度不及专用的超分辨率工具。

**九、锐度增强与美学对齐：从像素到感受的跨越**

研究团队在轻量级架构能否控制更高层次的视觉感受这个问题上进行了两个有趣的实验。

锐度控制的信号来源于边缘密度：对图片做Canny边缘检测，统计边缘像素占总像素的比例，对这个比例做分位数归一化后作为控制输入。清晰的图片通常包含更丰富的高频边缘信息，因此这个统计量是相对锐度的合理代理。输入值设为0.1时生成的图片画面柔和，边缘模糊；设为0.8时生成的图片结构清晰，细节丰富。

美学对齐则更加复杂，因为"好不好看"这件事很难用数字量化。亮度、颜色、锐度都可以直接从图片里测量，但审美偏好通常只能通过人类比较来评估：两张图哪个更好看？现有数据集如GenAI-Arena和Pick-a-Pic提供的正是这种"成对比较"的标注，而不是连续的评分数据。

为此，研究团队放弃了KV缓存，转而使用LoRA作为这个任务的能力载体。他们构建了一个90对图片的小数据集，用偏好值来调节LoRA的强度，并用此前研究（ArtAug）中开发的差分训练策略来训练对应的模板模型。结果令人满意：美学尺度设为0时图片正常，设为1.0时光线更柔和、构图更讨喜，设为2.5时模型甚至会自行添加粉色花朵等装饰元素——尽管训练时只用了0、0.5和1.0三个值，模型却能外推到训练范围之外，呈现出合理的连续变化。这提供了初步证据，表明模板模型可以用于人类审美偏好的对齐，未来有更系统研究的空间。

**十、内容参考与本地修复：图像级控制的深水区**

建立在美学对齐实验之上，研究团队进一步开发了一个图像到LoRA的内容参考模板模型。这个模型用SigLIP2作为图像编码器，把输入的参考图片编码为视觉特征，再通过若干全连接层映射到LoRA权重。换句话说，它可以把一张参考图"翻译"成一组LoRA参数，这些参数注入底层模型后，会让生成结果受到参考图的影响。

有趣的是，这种影响的具体内容并不固定：有时候模型主要继承了参考图的整体视觉风格，有时候它更倾向于保留参考图中人物的姿态和服装。这种不可精确控制的灵活性使得这个模型展现出一种独特的参考生成范式，具体机制和边界条件还有很多值得探索的空间。

本地修复则是另一类专用任务：给定原图和一个指定区域的遮罩，只修改遮罩内的区域，遮罩外的内容保持不变。研究团队训练了专门的本地修复模板模型，但纯粹依靠模型学习无法百分之百保证遮罩外区域完全不变。框架的优势在此时体现出来：可以在管道层面施加"硬约束"——每一步去噪之后，直接把遮罩外区域替换为原图的VAE编码，强制保持一致。这种"模型软控制+管道硬约束"的组合方案，让本地修复既自然又精确。

**十一、年龄控制：把同样的架构用到人脸上**

最后一个案例研究是人像年龄控制，训练数据来自IMDB-WIKI人脸数据集。这个模型采用与亮度调整完全相同的轻量级架构，控制信号是10到90的标量年龄值。由于原始数据集在不同年龄段的分布极不均匀，团队对不同年龄区间做了重采样来平衡训练数据。

生成结果显示年龄的变化是连续且自然的：年龄值设为20时呈现年轻面孔，设为50时出现中年特征，设为80时皱纹明显增多，而整体人物身份和画面质量保持稳定。这个实验直接证明了，从控制低层视觉属性（亮度）到控制语义更丰富的人类特征（年龄），同样的标量控制公式都能有效工作。

**十二、多能力融合：真正的"拼插"时刻**

框架的核心价值之一在于多个模板模型的协同工作。研究团队展示了几组融合案例：超分辨率和锐度增强同时启用，生成更高分辨率且细节更清晰的图片；结构控制、图像编辑和颜色调整三者融合，生成具有指定构图、特定风格和指定色调的艺术画；结构控制、锐度增强和美学对齐三者叠加，生成更符合人类审美偏好的渲染结果；本地修复、图像编辑和亮度调整组合，对图片的特定区域进行风格局部变换。

融合机制根据缓存类型自动确定：KV缓存在序列维度拼接，LoRA在秩维度拼接，不同格式的缓存则各自独立激活，不需要强行统一格式。由于模板模型不进入底层模型的去噪循环，显存占用不会随着模板数量的增加而大幅上升，按需加载机制进一步保证了实用性。

**十三、这项研究的意义与坦诚的局限**

研究团队在论文中坦率地承认，Diffusion Templates目前仍是一个原型框架，当前的展示以定性案例为主，缺乏系统的量化评估。未来需要在标准化基准上测量各个模板模型的控制精度、组合效果、跨底层模型的迁移性和推理效率，才能更严格地评估这套框架的实际价值。

此外，KV缓存和LoRA虽然目前是可用且有效的接口，但对不同的模型架构和任务类型未必都是最优选择。未来还需要探索其他可能的缓存格式，以在效率、兼容性和控制力之间找到更好的平衡。

将框架扩展到视频生成模型也是重要的方向。图片生成和视频生成的底层机制有相通之处，但视频还涉及时间一致性、运动模式等新维度，如何在这些维度上定义和传递可复用的控制能力，是值得深入研究的问题。

说到底，Diffusion Templates做的事情可以用一句话概括：它试图给AI绘图的控制能力建立一套通用语言，让来自不同地方、用不同方式实现的控制工具，能够以统一的方式被训练、被加载、被组合。这不是一项让AI"更聪明"的研究，而是一项让AI绘图生态"更有序"的工程实践。对于普通用户来说，它意味着未来使用AI作图时，同时控制构图、颜色、风格、清晰度这些需求，将会像手机插上充电器一样自然，而不再需要工程师在背后反复拼装转接头。

研究的所有代码、模型权重和训练数据集均已开源，有兴趣深入了解技术细节的读者可以通过论文编号arXiv:2604.24351检索完整论文和相关资源。

**Q&A**

Q1：Diffusion Templates框架中的"模板缓存"到底是什么？

A：模板缓存是连接控制模型和底层绘图模型的标准化接口，相当于一个通用数据格式。控制模型把各种控制信号（比如深度图、颜色值、参考图片）转换成这种格式，底层绘图模型直接读取。目前主要支持两种格式：KV缓存（直接影响注意力计算的中间数据）和LoRA（轻量级模型参数调整），两者都不需要修改底层绘图模型的核心逻辑。

Q2：Diffusion Templates和ControlNet有什么区别？

A：ControlNet是一种具体的控制方法，只针对特定的底层模型，用残差分支的方式注入控制信号，架构和接入方式固定。Diffusion Templates是一套框架，不规定具体的控制方法和架构，而是定义了一个通用接口，各种控制方法（包括类似ControlNet的结构控制）都可以按这个接口实现，从而实现统一加载和自由组合，多个控制能力可以同时工作。

Q3：Diffusion Templates的多个控制能力同时使用会不会很占内存？

A：不会大幅增加内存占用，这是框架设计的优势之一。因为模板模型不参与底层绘图模型的迭代去噪循环，只在外部运行一次并输出缓存数据。框架还支持按需加载，用到哪个模板模型才把它加载进显存，用完即释放。多个KV缓存通过序列拼接合并，不会导致显存随模板数量线性增长。