作者|杨文

来源|AI先锋官

‍‍

近日,微软亚洲研究院和北京大学的研究人员共同开发一款AI图像编辑模型——DesignEdit。

该模型引入了设计领域中常见的图层概念,并采用多层潜在分解和融合技术,允许用户进行精确的空间感知图像编辑和处理。

 微软+北大出了款PS的AI平替产品,店招、海报一键搞定
打开网易新闻 查看更多视频
微软+北大出了款PS的AI平替产品,店招、海报一键搞定

通俗来说,DesignEdit可以像PS一样对图片进行编辑。

例如,一张设计精美的卡通海报,上面绘有三座小房子以及三只小猪,如果想要移除海报中的某个元素,或者让房子变小,都可以用到DesignEdit。

主要功能

DesignEdit的主要功能包括:

1.对象移除:DesignEdit可以从图像中精确移除指定的对象,无论是单个还是多个对象。通过多层潜在分解,框架能够独立处理每个对象,并在移除后自然地修复背景。

2.对象移动、缩放、翻转:允许用户将图像中的一个或多个对象移动到新的位置,或者对图像中的元素进行缩放和翻转操作,用户可以改变对象的尺寸或方向,而不会影响图像的其他部分。

3.镜头平移和缩放:模拟相机视角的变化,DesignEdit 可以在图像中实现平移和缩放效果,允许用户调整图像的构图,就像通过相机镜头观察时移动或调整焦距一样。

4.跨图像组合:DesignEdit 支持将来自不同图像的元素组合在一起,创建全新的图像。这项功能特别适合于创意工作,可以结合多个图像的元素来创作新的视觉内容。

5.装饰移除:精准移除图像中的装饰元素,并在移除后自然地修复背景,使图像不违和。

6.排版编辑:针对设计图像或海报,DesignEdit能够处理文本和其他设计元素的编辑任务。它能够理解设计图像的特殊需求,如排版和样式的调整,提供更加精细的编辑控制。

7.海报编辑:根据设计需要,它能对海报中元素进行自由编辑。

链接直达

官方项目地址:

https://design-edit.github.io/

论文地址:

https://arxiv.org/pdf/2403.14487.pdf

GitHub地址:

https://github.com/design-edit/DesignEdit

Hugging Face Demo地址:

https://huggingface.co/spaces/YuhuiYuan/DesignEdit

工作原理

DesignEdit的工作原理基于两个核心子任务的结合:多层潜在分解(Multi-Layered Latent Decomposition)和多层潜在融合(Multi-Layered Latent Fusion)。

在多层潜在分解过程中,源图像的潜在表示被分割成多个层次,每个层次代表图像中的不同对象或背景部分。为了实现这一点,DesignEdit 探索了自注意力机制内的内在修复能力,并引入了一种关键遮罩自注意力方案。这种方案能够在遮罩区域传播周围上下文信息,同时减少对遮罩外区域的影响。

在多层潜在融合过程中,DesignEdit根据用户的编辑指令,将编辑后的多个潜在表示层融合到一个新的画布上。这个过程是按照特定的图层顺序和用户指定的布局安排进行的。

为了提高编辑质量,DesignEdit在潜在空间中引入了伪影抑制方案。这个方案有助于减少编辑过程中可能出现的视觉瑕疵,使图像看起来更加自然和真实。

在融合过程中,DesignEdit通过额外的去噪步骤来协调融合后的多层潜在表示,进一步优化图像边缘的整合和界面的平滑过渡。

扫码邀请进群,我们带你一起来玩转ChatGPT、GPT-4、文心一言、通义千问、讯飞星火等AI大模型,顺便学一些AI搞钱技能。

往期文章回顾