图片编辑是一个非常实用的领域,因为用户的需求多种多样,因此特别注重操作的简便性。今天介绍了一款名为MagicQuill的综合图片编辑系统,它可以帮助用户快速实现创意。这个系统设计了一个简洁但功能强大的界面,让用户只需简单几笔,就可以表达他们的想法,比如插入元素、擦除物体、改变颜色等。系统通过一个多模态大语言模型(MLLM)实时分析用户的操作意图,省去了输入复杂指令的麻烦。(链接在文章底部)

总结一下,交互式图片编辑系统 MagicQuill 成功解决了精准、高效编辑的难题。这是通过结合“编辑处理器”、“绘画助手”和“灵感收集器”三大功能的优势实现的。用户只需要用三种简单直观的笔触就能轻松编辑图片:添加、删除和上色。系统通过多模态大语言模型 (MLLM) 动态预测用户的操作意图,并提供相关的编辑建议。

01 技术原理

该系统框架包含三大核心:双分支架构的编辑处理器,实现可控图像修补;实时预测用户意图的绘画助手,提供智能辅助;多功能灵感收集器,配备灵活画笔满足多样需求,助力用户以简单笔触直观精准地编辑图片。

数据处理流程通过 CNN 提取边缘并简化颜色,结合用户画笔操作生成三种编辑条件——编辑掩膜(定义修改区域)、边缘条件(提供参考信息)、颜色条件(指导颜色调整),三者协同实现精准图片编辑。

编辑处理器基于潜变量扩散模型的 UNet 架构,新增修补分支(智能填充缺失区域)和控制分支(确保画笔操作精准影响图像结构),实现更精确智能的基于画笔的图片编辑。

数据集构建流程基于 DCI 数据集,提取原始图片生成边缘图,选取边缘密集区域作为精选掩膜,并在掩膜区域应用 BrushNet 修补生成修补结果,最后叠加边缘图形成最终图片,模拟用户手绘编辑场景,掩膜边界框和标签直接继承自 DCI 数据集。

02 实际效果

使用添加画笔根据提示添加细节和元素 - 用您自己生动的笔触表达您的想法!(“为美丽的女士佩戴项链”)

减法笔刷可以根据提示去除多余的细节或重新绘制区域。如果您对任何内容不满意,只需将其减去即可 !(“我们把骷髅先生的帽子摘下来,帮他降温吧。”)

结合加减画笔来创造惊人的组合效果!(“让我们给这位帅哥一条新领带吧!”)

彩色画笔可以精确地为图像着色,以匹配您的画笔的颜色(“精确的颜色突出显示 - 准确地在您想要着色的位置进行绘画”)

看图猜图:画笔超级聪明!看看下面的例子,一旦你画完,它就会很快猜出你想要画什么,并为你填写提示~不过有时它可能会猜错,所以你可以随意告诉它你到底想画什么(“糟糕!我不想画藤蔓,我想画一条路!”)

https://arxiv.org/pdf/2411.09703

欢迎交流~,带你学习AI,了解AI