我不允许你不会用最简单的提示词编辑照片，最新开源照片编辑技术PromptFix|promptfix|保真度|图像处理|提示词|照片|编辑技术

扩散模型与语言模型的结合在图像生成任务中展现出了强大的可控性，但面临“指令跟随”数据缺乏和扩散过程随机性的挑战，扩散过程的随机性使得生成或编辑图像时难以保留细节。为解决这些问题，罗切斯特大学和微软提出了PromptFix框架。该框架利用大规模视觉-语言数据集训练，增强模型对指令的理解和执行能力。通过引入基于VLM的辅助提示模块和高频引导采样机制，PromptFix能够更好地保留图像细节并减少扩散过程中的随机性影响。

在实际应用中，PromptFix展现了卓越性能，能准确识别并执行复杂指令，在多任务处理和盲恢复等方面也取得显著成果，如低光增强、去雪和去雾等任务中有效提升图像质量并保留细节信息。（链接在文章底部）

01 技术原理

PromptFix构建了一个大规模的指令跟踪数据集，涵盖全面的图像处理任务，包括低级任务、图像编辑和对象创建。接下来，提出了一种高频引导采样方法来明确控制去噪过程并保留未处理区域中的高频细节。最后，设计了一个辅助提示适配器，利用视觉语言模型 (VLM) 来增强文本提示并提高模型的任务泛化能力。

为了确保提示的有效性和适应性，PromptFix采用了独特的处理流程：它使用CLIP视觉编码器提取图像特征，并分别处理指令提示和辅助提示的文本嵌入。通过引入额外的交叉注意层，PromptFix实现了对这两种提示的增强型交叉适应，从而更准确地引导扩散模型进行图像修复。这种架构不仅提高了低阶图像处理任务的性能，还通过结合语义和缺陷信息，有效地解决了传统方法中存在的指导差距问题。

02 实际效果

高频引导采样（HGS）方法被引入以平衡图像的保真度和质量。为了验证HGS的有效性，进行了定性和定量实验。在低光场景下，模型旨在增强输入图像的可见性（质量），同时保留其原始的文本细节（保真度）。简单来说，HGS方法能够在提升低光图像质量的同时，更好地保留图像中的细节，从而在保真度和质量之间达到了良好的平衡。

PromptFix与其他指令驱动的扩散方法（InstructP2P 、InstructDiff 和MGIE ）在图像处理方面的定性比较，以及与低阶通用技术（PromptIR 、AirNet 和Diff-Plugi n ）在图像恢复方面的定性比较。

使用非常简单：

https://arxiv.org/pdf/2405.16785
https://github.com/yeates/PromptFix

欢迎交流～，带你学习AI，了解AI

我不允许你不会用最简单的提示词编辑照片，最新开源照片编辑技术PromptFix

热搜

热门跟贴

热搜

热门跟贴

相关推荐

幸亏我提前拍了照片

图库如何删除照片

强者从不抱怨环境，今天这个照片我拍定了

为啥镜子里的自己，看上去比照片好看？到底哪个才是真实的自己？

光这张照片搁现在就给封杀了

妻子的计谋让一张照片毁了

老照片动起来了，他的笑容温暖又治愈

女生评价别人照片说不好看，看到自己照片立马急了

用滴胶制作照片挂件，几十块买的工艺品，成品实际才几毛！

照片的意义是为了把一瞬间变为永恒，记录下你每一次的平凡生活中的不平凡

迪士尼“饼饼”又被游客拍头，工作人员强势“回击”

美暂缓对符合美墨加协定的墨加商品征税:直至4月2日

国家发改委：双一流高校本科再扩招2万人

交易幕后：拉里·芬克和李嘉诚如何闪电达成228亿美元收购案

女排超级联赛赛季最佳阵容出炉，冠军江苏女排理所当然成为最大赢家

公厕标牌的一串二进制代码，让网友直呼“杭州真是太高级了”

排队4小时、景观位溢价至500元 北京餐饮“排队王”背后的消费新图景

日薪2000月入15万？成都旅游或催生一个很赚钱的赛道

确认了！福州这家永辉超市即将停业！

十几万的南、北极地游“收割”年轻中产

排队4小时、景观位溢价至500元北京餐饮“排队王”背后的消费新图景