作者|杨文
来源|AI先锋官
近日,微软亚洲研究院和北京大学的研究人员共同开发一款AI图像编辑模型——DesignEdit。
该模型引入了设计领域中常见的图层概念,并采用多层潜在分解和融合技术,允许用户进行精确的空间感知图像编辑和处理。
通俗来说,DesignEdit可以像PS一样对图片进行编辑。
例如,一张设计精美的卡通海报,上面绘有三座小房子以及三只小猪,如果想要移除海报中的某个元素,或者让房子变小,都可以用到DesignEdit。
主要功能
DesignEdit的主要功能包括:
1.对象移除:DesignEdit可以从图像中精确移除指定的对象,无论是单个还是多个对象。通过多层潜在分解,框架能够独立处理每个对象,并在移除后自然地修复背景。
2.对象移动、缩放、翻转:允许用户将图像中的一个或多个对象移动到新的位置,或者对图像中的元素进行缩放和翻转操作,用户可以改变对象的尺寸或方向,而不会影响图像的其他部分。
3.镜头平移和缩放:模拟相机视角的变化,DesignEdit 可以在图像中实现平移和缩放效果,允许用户调整图像的构图,就像通过相机镜头观察时移动或调整焦距一样。
4.跨图像组合:DesignEdit 支持将来自不同图像的元素组合在一起,创建全新的图像。这项功能特别适合于创意工作,可以结合多个图像的元素来创作新的视觉内容。
5.装饰移除:精准移除图像中的装饰元素,并在移除后自然地修复背景,使图像不违和。
6.排版编辑:针对设计图像或海报,DesignEdit能够处理文本和其他设计元素的编辑任务。它能够理解设计图像的特殊需求,如排版和样式的调整,提供更加精细的编辑控制。
7.海报编辑:根据设计需要,它能对海报中元素进行自由编辑。
链接直达
官方项目地址:
https://design-edit.github.io/
论文地址:
https://arxiv.org/pdf/2403.14487.pdf
GitHub地址:
https://github.com/design-edit/DesignEdit
Hugging Face Demo地址:
https://huggingface.co/spaces/YuhuiYuan/DesignEdit
工作原理
DesignEdit的工作原理基于两个核心子任务的结合:多层潜在分解(Multi-Layered Latent Decomposition)和多层潜在融合(Multi-Layered Latent Fusion)。
在多层潜在分解过程中,源图像的潜在表示被分割成多个层次,每个层次代表图像中的不同对象或背景部分。为了实现这一点,DesignEdit 探索了自注意力机制内的内在修复能力,并引入了一种关键遮罩自注意力方案。这种方案能够在遮罩区域传播周围上下文信息,同时减少对遮罩外区域的影响。
在多层潜在融合过程中,DesignEdit根据用户的编辑指令,将编辑后的多个潜在表示层融合到一个新的画布上。这个过程是按照特定的图层顺序和用户指定的布局安排进行的。
为了提高编辑质量,DesignEdit在潜在空间中引入了伪影抑制方案。这个方案有助于减少编辑过程中可能出现的视觉瑕疵,使图像看起来更加自然和真实。
在融合过程中,DesignEdit通过额外的去噪步骤来协调融合后的多层潜在表示,进一步优化图像边缘的整合和界面的平滑过渡。
扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。
往期文章回顾
热门跟贴