如此简单！开源图片编辑新神器MagicQuill

带你学AI

2024-11-17 13:18 ·广东

图片编辑是一个非常实用的领域，因为用户的需求多种多样，因此特别注重操作的简便性。今天介绍了一款名为MagicQuill的综合图片编辑系统，它可以帮助用户快速实现创意。这个系统设计了一个简洁但功能强大的界面，让用户只需简单几笔，就可以表达他们的想法，比如插入元素、擦除物体、改变颜色等。系统通过一个多模态大语言模型（MLLM）实时分析用户的操作意图，省去了输入复杂指令的麻烦。（链接在文章底部）

总结一下，交互式图片编辑系统 MagicQuill 成功解决了精准、高效编辑的难题。这是通过结合“编辑处理器”、“绘画助手”和“灵感收集器”三大功能的优势实现的。用户只需要用三种简单直观的笔触就能轻松编辑图片：添加、删除和上色。系统通过多模态大语言模型 (MLLM) 动态预测用户的操作意图，并提供相关的编辑建议。

01 技术原理

该系统框架包含三大核心：双分支架构的编辑处理器，实现可控图像修补；实时预测用户意图的绘画助手，提供智能辅助；多功能灵感收集器，配备灵活画笔满足多样需求，助力用户以简单笔触直观精准地编辑图片。

数据处理流程通过 CNN 提取边缘并简化颜色，结合用户画笔操作生成三种编辑条件——编辑掩膜（定义修改区域）、边缘条件（提供参考信息）、颜色条件（指导颜色调整），三者协同实现精准图片编辑。

编辑处理器基于潜变量扩散模型的 UNet 架构，新增修补分支（智能填充缺失区域）和控制分支（确保画笔操作精准影响图像结构），实现更精确智能的基于画笔的图片编辑。

数据集构建流程基于 DCI 数据集，提取原始图片生成边缘图，选取边缘密集区域作为精选掩膜，并在掩膜区域应用 BrushNet 修补生成修补结果，最后叠加边缘图形成最终图片，模拟用户手绘编辑场景，掩膜边界框和标签直接继承自 DCI 数据集。

02 实际效果

使用添加画笔根据提示添加细节和元素 - 用您自己生动的笔触表达您的想法！(“为美丽的女士佩戴项链”)

减法笔刷可以根据提示去除多余的细节或重新绘制区域。如果您对任何内容不满意，只需将其减去即可！(“我们把骷髅先生的帽子摘下来，帮他降温吧。”)

结合加减画笔来创造惊人的组合效果！(“让我们给这位帅哥一条新领带吧！”)

彩色画笔可以精确地为图像着色，以匹配您的画笔的颜色(“精确的颜色突出显示 - 准确地在您想要着色的位置进行绘画”)

看图猜图：画笔超级聪明！看看下面的例子，一旦你画完，它就会很快猜出你想要画什么，并为你填写提示~不过有时它可能会猜错，所以你可以随意告诉它你到底想画什么(“糟糕！我不想画藤蔓，我想画一条路！”)

https://arxiv.org/pdf/2411.09703

欢迎交流～，带你学习AI，了解AI

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴