在当前生成式AI(AIGC)的发展中,微调适配器(Fine-tuned Adapters)已成为一种标准方法,允许用户以一种较低的存储和计算成本的方式来个性化定制图像。随着计算机视觉和人工智能开源社区的迅猛发展,社区中存在的高效适配器数量已经超过10万个,主要以低秩适配(Low-Rank Adaptation, LoRA)为主,但它们大多都专属于某一些独特的领域,很难做到通用和泛化。为了进一步提高适配器的性能,本文介绍一篇刚刚发表在NeurIPS 2024上的研究论文,本文提出了一种名为Stylus的适配器组合框架,它可以根据用户提示的关键字来有效地选择和自动组合特定于任务的适配器。这使得模型能够快速适应到具备用户偏好的下游目标域中,从而实现更好的生成效果。

打开网易新闻 查看精彩图片

论文题目: Stylus: Automatic Adapter Selection for Diffusion Models 论文链接: https://openreview.net/forum?id=3Odq2tGSpp 代码仓库: https://github.com/stylus-diffusion/stylus 项目主页: https://stylus-diffusion.github.io/

一、引言

在目前的生成式图像模型社区中,Adapters方法无疑是最受欢迎的新兴技术,在Civit AI和Hugging Face等模型平台上,Adapters方法的数量已经超过10万个,并且主要以LoRA模型为主。

打开网易新闻 查看精彩图片

除此之外,基于检索增强生成(Retrieval-Augmented Generation, RAG)的方法也展现出了优越的性能,其主要通过向量嵌入和相似性检索在推理时对生成模型进行增强。随后也出现了组合Adapters的新技术路线,例如通过组合多个Adapters来协同工作,以对特定的下游任务提升生成性能。本文介绍的Stylus框架也遵循该路线,其旨在解决以下关键挑战:

  1. 如何从海量Adapters中自动选择与用户提示词(prompt)最相关的Adapter

  2. 如何有效地组合多个Adapter以生成高质量、多样性的图像

  3. 如何避免Adapter组合可能引入的偏见和图像质量下降问题

具体来说,Stylus提出了一种三阶段框架,可以自动检索与当前任务相近的Adapters Card,并根据用户提示的关键字进一步组合Adapters。

打开网易新闻 查看精彩图片

上图展示了Stylus与普通扩散模型(SD v1.5)的文本到图像生成效果对比,可以看出,Stylus可以更好的拟合用户提示的上下文场景。并且生成高质量、具备多样性的图像。

二、本文方法

为了应对现实场景中的复杂需求,例如用户提示通常会指定多个细粒度的任务。这一挑战不仅包括检索与整个用户提示相关的Adapter,还包括将它们与提示中的特定任务进行匹配。此外,如果只是简单地组合多个Adapters也会将外部偏差注入到模型中,从而影响生成质量。为了解决上述挑战,本文提出Stylus包含三个处理阶段,分别是优化(Refine)、检索(Retrieve)和组合(Compose),其整体工作流程如下图所示。

打开网易新闻 查看精彩图片

其中,Refiner模块会将从Adapter库中选取合适的模型插入到 VLM 以生成与当前任务相关的文本描述,然后通过编码器生成相应的文本嵌入。Retriever获取与整个用户提示相关的候选Adapter。最后,Composer根据提示的任务(对应于一组关键字)对剩余的Adapters进行修剪和适当组合。

2.1 Refiner模块

Refiner的核心目标是为每个Adapter生成高质量的描述性文本嵌入。对于一个给定的Adapter ,Stylus会根据预训练的视觉语言模型(VLM)对 生成描述。例如将 的模型信息打包输入到VLM中,分别包含随机抽样的示例图像集 ,对应的提示词集 ,以及原始作者提供的描述 (也可以使用更大型的专家模型,例如Gemini Ultra对描述进行改进)。为了实现更高效的组合,Refiner也会针对基于LoRA的Adapter提供合适的权重系数。随后使用嵌入模型 将描述 转换为嵌入向量 ,并将这些嵌入向量存储在向量数据库 中。

2.2 Retriever模块

在得到所有Adapters对应的嵌入向量数据库后,Retriever会从中检索出与用户提示词检索最相关的Adapter。具体来说,Retriever首先使用相同的嵌入模型处理用户提示词,生成提示词嵌入,并计算提示词嵌入与Adapters嵌入矩阵的余弦相似度,计算公式如下:

打开网易新闻 查看精彩图片

并根据该结果选取相似度最高的前 个适配器(本文 设置为150)。

2.3 Composer模块

Composer是Stylus的核心模块,其首先将提示词分解为不同任务的关键词,随后为每个任务分配最相关的适配器,这一过程可以直接形式化表示为:

打开网易新闻 查看精彩图片

其中 表示从提示词中识别的任务集合, 是分配给任务 的适配器子集, 是判断适配器是否与任务对齐的谓词,Stylus内置了Gemini 1.5通过上下文学习来完成这一复杂的对齐和分配过程

为了进一步提高图像多样性和降低低质量Adapter的影响,Stylus引入了一个简单巧妙的掩码机制,即对于每个任务均生成候选掩码,其可以是全1向量或全0向量,随后通过对所有任务的掩码进行交叉积,生成多样的Adapters组合 。

此外,作者还抛出了两个关键的insights:

(1) 对Adapters的权重进行合并时,如果单个任务的权重过大,可能会在生成结果中引入视觉伪影

(2)跨任务的Adapters在权重空间往往是正交的

基于上述分析,作者设计了如下的Adapters权重合并公式:

打开网易新闻 查看精彩图片

其中 是最终模型权重, 是基础模型权重, 是缩放因子(文中设为0.8),借助于这种设计,Stylus可以实现高效的Adapters组合效果,同时可以有效抑制不相关或有偏见的Adapters。这种方法不仅在文本到图像生成中表现出色,还可以扩展到图像翻译和图像修复等其他图像生成任务中。

三、实验效果

基于Stylus框架,本文作者构建了一个全新的大规模Adapters数据集,称为StylusDocs,其中包含了来自Civit AI和HuggingFace平台的75,000个低秩Adapters(LoRA),其中包含了由Gemini Ultra-Vision模型生成的改进Adapters描述。为了对Stylus进行性能评估,在实验阶段,作者选取了两个被广泛使用的Stable Diffusion[1]权重进行实验,分别是Realistic-Vision-v6(擅长生成写实风格图像)和Counterfeit-v3(专注于生成卡通和动漫风格图像)

3.1 人类评估实验

下图展示了本文方法在Realistic-Vision-v6 checkpoint基础上生成的图像结果,随后作者邀请了4名人类用户参与了质量评估打分。每个数据集-checkpoint组合评估150张图像,并且要求用户选择偏好的图像生成方法。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

评估结果如上图所示,其中蓝色柱状为本文的Stylus框架,橘色柱状为对比baseline。从上图中我们可以看出,用户总体更倾向于Stylus生成的图像。

3.2 客观评价实验

为了保证性能评估的公平性,作者还进行了客观指标实验,包括CLIP分数和FID分数。其中前者可以用来评估生成图像与文本提示的对齐程度,后者主要评估生成图像的多样性和美学质量,实验结果如下图和表所示。

打开网易新闻 查看精彩图片

我们可以看出,Stylus可以成功地将Pareto曲线向更高效的区域转移,并且在图像的视觉保真度和文本对齐方面均有明显改进,这表明,客观评价结果与人类评估高度一致。

3.3 推理效率分析

由于文本图像合成已经成为AIGC领域中重要的落地应用,因此其推理速度是模型综合性能中重要的一环。作者对Stylus各个组件的运行时间进行了详细的分析,如下

打开网易新闻 查看精彩图片

具体来说,Stylus的图像生成时间相较于普通的扩散模型增加了 12.1 秒,其中Composer占了 8.5 秒,但是随着批次大小(batch size)的增加,Stylus 产生的推理时间开销会逐渐降低。

四、总结

本文针对LoRA Adapters提出了一种全新的组合框架Stylus,Stylus为现有文本到图像生成任务引入了一种性能的新维度,即在高性能、资源密集型模型和更高效、成本更低的模型之间进行动态选择来进行性能权衡。通过自动选择和组合Adapters,Stylus在视觉保真度、文本对齐和图像多样性等方面均优于现有Stable Diffusion基础模型。同时作者也对Stylus的推理架构进行了优化,例如专门设计的权重合并算法可以有效去冗余,从而提高推理速度。

参考资料

[1] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, and Björn Ommer. High-resolution image synthesis with latent diffusion models, 2022. 3, 5

llustration From IconScout By IconScout Store

-The End-

扫码观看!

本周上新!

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区(

www.techbeat.net
) 。 社区上线500+期talk视频,3000+篇技术干货文章,方向覆盖CV/NLP/ML/Robotis等;每月定期举办顶会及其他线上交流活动,不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台,希望为AI人才打造更专业的服务和体验,加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章,并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向,对用户启发更大的文章,做原创性内容奖励

投稿方式

发送邮件到

melodybai@thejiangmen.com

或添加工作人员微信(yellowsubbj)投稿,沟通投稿详情;还可以关注“将门创投”公众号,后台回复“投稿”二字,获得投稿说明。

关于我“门”

将门是一家以专注于数智核心科技领域新型创投机构,也是北京市标杆型孵化器。 公司致力于通过连接技术与商业,发掘和培育具有全球影响力的科技创新企业,推动企业创新发展与产业升级。

将门成立于2015年底,创始团队由微软创投在中国的创始团队原班人马构建而成,曾为微软优选和深度孵化了126家创新的技术型创业公司。

如果您是技术领域的初创企业,不仅想获得投资,还希望获得一系列持续性、有价值的投后服务,欢迎发送或者推荐项目给我“门”:

bp@thejiangmen.com

打开网易新闻 查看精彩图片

点击右上角,把文章分享到朋友圈