扩散模型与语言模型的结合在图像生成任务中展现出了强大的可控性,但面临“指令跟随”数据缺乏和扩散过程随机性的挑战, 扩散过程的随机性使得生成或编辑图像时难以保留细节。 为解决这些问题,罗切斯特大学和微软提出了PromptFix框架。 该框架利用大规模视觉-语言数据集训练,增强模型对指令的理解和执行能力。 通过引入基于VLM的辅助提示模块和高频引导采样机制,PromptFix能够更好地保留图像细节并减少扩散过程中的随机性影响。
在实际应用中,PromptFix展现了卓越性能,能准确识别并执行复杂指令,在多任务处理和盲恢复等方面也取得显著成果,如低光增强、去雪和去雾等任务中有效提升图像质量并保留细节信息。(链接在文章底部)
01 技术原理
PromptFix构建了一个大规模的指令跟踪数据集,涵盖全面的图像处理任务,包括低级任务、图像编辑和对象创建。接下来,提出了一种高频引导采样方法来明确控制去噪过程并保留未处理区域中的高频细节。最后,设计了一个辅助提示适配器,利用视觉语言模型 (VLM) 来增强文本提示并提高模型的任务泛化能力。
为了确保提示的有效性和适应性,PromptFix采用了独特的处理流程:它使用CLIP视觉编码器提取图像特征,并分别处理指令提示和辅助提示的文本嵌入。通过引入额外的交叉注意层,PromptFix实现了对这两种提示的增强型交叉适应,从而更准确地引导扩散模型进行图像修复。这种架构不仅提高了低阶图像处理任务的性能,还通过结合语义和缺陷信息,有效地解决了传统方法中存在的指导差距问题。
02 实际效果
高频引导采样(HGS)方法被引入以平衡图像的保真度和质量。为了验证HGS的有效性,进行了定性和定量实验。在低光场景下,模型旨在增强输入图像的可见性(质量),同时保留其原始的文本细节(保真度)。 简单来说,HGS方法能够在提升低光图像质量的同时,更好地保留图像中的细节,从而在保真度和质量之间达到了良好的平衡。
PromptFix与其他指令驱动的扩散方法(InstructP2P 、InstructDiff 和MGIE )在图像处理方面的定性比较, 以及与低阶通用技术(PromptIR 、AirNet 和Diff-Plugi n )在图像恢复方面的定性比较。
使用非常简单:
https://arxiv.org/pdf/2405.16785
https://github.com/yeates/PromptFix
欢迎交流~,带你学习AI,了解AI
热门跟贴