始智AI wisemodel.cn开源社区

始智AI wisemodel.cn社区是源自中国的中立开放的AI开源社区。正在,欢迎加入共同成长。wisemodel社区上线,H800/H20等资源上线,价格实惠,灵活方便,支持在线微调训练模型,及和,并。

一眼临摹One-DM是笔迹仿写AI,仅需提供单张参考样本即可临摹用户的书写风格,支持英文,中文和日文三种文字的临摹。这种新的风格化手写文字生成方法,由华南理工大学、新加坡国立大学、昆仑万维以及琶洲实验室研究者们提出。

该字体 使用起来更加高效、便捷和节约时间,并且在性能上也优于以往依赖10几张风格样本的SOTA工作。 可以用于社交和办公软件中,帮助用户更好表达个性和传递情感,兼顾了传统手写的人情味和数字化时代的高效表达。

目前One-DM已经开源,并发布到始智AI wisemodel开源社区,欢迎大家前往使用。

打开网易新闻 查看精彩图片

模型及github地址:

https://wisemodel.cn/models/SCUT-MMPR/One-DM

https://github.com/dailenson/One-DM

01

研究背景和关键问题

我们先来思考一个问题:目前大火的文生图方法和风格迁移方法是在海量的数据上进行训练的,拥有强大的泛化能力,能否可以直接实现一眼临摹?答案是否定的。

研究者们挑选了DALL-E3、Stable Diffusion、Artbreeder、IP-Adapter等工业方法进行测试,实验显示现有工业方法在手写文字的风格临摹(墨迹颜色、倾斜程度、字母间的连笔和间隔等)上离目标还有较大距离,暂时还无法做到一眼临摹。

打开网易新闻 查看精彩图片

为了实现一眼临摹,研究者们提出一个风格化的手写文字生成模型(stylized handwritten text generation method),该模型能够从单张手写样本中临摹出用户的书写风格,进而合成任意书写内容的手写笔迹

围绕上述目标,研究者们分析了两个关键问题:

  1. 1、用户只能提供单张书写样本,如何从单张参考样本中准确学习用户独特的书写风格呢?换句话说,一眼临摹的要求过于苛刻,仅仅使用单张样本能否临摹出令人满意的用户笔迹?

  2. 2、实际应用中,用户书写的纸张可能没那么干净,提供的样本中存在多样的噪声背景,如何在临摹风格的过程中避免这些噪声的干扰?接下来让我们看看这篇ECCV2024提出的One-DM(One-Shot Diffusion Mimicker)是如何解决上述问题的吧。

02

技术方案

研究者发现,单张样本图像中存在背景干扰,书写风格模式并不清晰,很难直接从原始的样本图像中提取出准确的书写风格。 为了解决上述问题,研究者对样本进行高低频分离,发现书写样本的高频成分中具有清晰的文字轮廓,蕴含着显著的书写风格模式,包含文字的倾斜,字母间距和连笔模式等。 受启发于上述观察,One-DM旨在引入个人笔迹的高频成分来增强用户书写风格的提取。

打开网易新闻 查看精彩图片

然而,这听起来简单,实际操作却不容易。这里有两个尚未解决的难题:

(1) 尽管高频成分中存在更清晰的风格模式,如何准确引导One-DM 从高频图像中提取出风格特征而不是其他的特征呢?

(2) 由于高频成分中缺乏笔迹颜色,仍然需要从原始样本中提取风格模式作为补充,这导致最终提取出的风格特征依然保留了样本的背景噪声,从而对后续的文字合成过程产生不利影响。

为了解决这些难题,One-DM提出了两个解决策略:(a)拉普拉斯风格增强模块,(b)自适应过滤噪声的门控机制。

方法框架

One-DM的整体框架如下图所示,包含高频风格编码器、空域风格编码器、内容编码器、风格-内容融合模块和扩散生成模块。

首先,One-DM利用高通滤波器从原始风格参考图像中提取高频成分,其次将高频和原始图像并行输入到高频和空域风格编码器中,分别获得高频和空域风格特征。然后,利用门控机制来自适应过滤空域风格特征中的背景噪声。接着将内容编码器提取的内容特征,高频风格特征和过滤后的空域风格特征送入风格-内容融合模块中获得合并后的条件输入。最后,利用该条件输入引导扩散模型合成满足期望风格和目标内容的手写文字。

打开网易新闻 查看精彩图片

(a) 拉普拉斯风格增强模块 :One-DM提出拉普拉斯风格增强模块来从单张书写样本中高效提取用户的书写风格。首先利用拉普拉斯算子获取原始样本的高频成分。相比其他算子,例如:傅里叶算子,索贝尔算子和小波算子,拉普拉斯算子的优势在于能够提取更加清晰的字符风格模式。

随后,在拉普拉斯对比学习损失函数(LapNCE)的引导下,高频风格编码器从高频成分中提取出判别性强的风格模式,用于促进手写文本合成的真实性和多样性。LapNCE和高频成分是不可分割的整体,与其他直接作用于图像上的对比学习损失函数不同,LapNCE只有作用在高频成分上才能准确引导风格的提取。

(b) 自适应门控机制 :为了过滤空域风格特征中存在的噪声信息,One-DM提出自适应门控机制。门控机制中存在多个可学习的门控单元,其数量与空域风格特征的长度相同。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

(c) 风格-内容的融合摸块 ;获取了高频和空域风格特征后,如何将风格信息和内容编码器提取出的内容信息注入到扩散模型中,引导后续的文字生成过程呢?One-DM提出先将内容信息和风格信息融合后再进行注入扩散模型,而不是分开注入。具体来说,所提出的风格-内容融合模块包含两个attention机制。

首先,内容信息作为query向量,合并后的风格信息作为key & value向量,在交叉注意力机制中,动态查询风格信息中与自身最相关的风格特征。然后,将查询出的风格特征和内容信息合并,送入自注意力机制中完成进一步的信息融合。

打开网易新闻 查看精彩图片

03

实验评估

定量评价 One-DM在多个英文、中文和日文数据集上都取得了最优异的临摹性能。尤其强调的是,仅需一张参考样本的One-DM超过了之前依赖十几张参考样本的SOTA方法(HWT和VATr)。

打开网易新闻 查看精彩图片

定性评价在英文文本生成任务上,相比以前的SOTA方法,One-DM生成的结果可以更好的临摹出参考样本的墨迹、字符间隔和笔画粗细等风格特征。

打开网易新闻 查看精彩图片

在其他语言上One-DM也表现良好。从下图中可以看出,Diffusion-based(One-DM和WordStylist)的方法在生成中文和日文等字符结构复杂的文本时,显著优于GAN-based(GANwriting,HWT和VATr)方法。而相比同为Diffusion-based的WordStylist,One-DM在字符细节上更胜一筹。

打开网易新闻 查看精彩图片

与工业方法对比,One-DM也有较大优势。在英文文本合成任务上,One-DM的文本内容准确度和风格临摹上都显著优于现有的主流工业方法。其中,DALL-E3跟Stable Diffusion表现稍好,可以合成正确的文本内容,但是在风格临摹上效果不佳,并且Stable Diffusion容易生成多余的背景。而中文文本合成任务上,One-DM在字符的墨迹和字符细节上与目标风格更接近。

04

消融实验

核心模块对算法性能的影响 如下表所示,本文提出的拉普拉斯风格增强模块和门控机制具有协同作用,有效提升了对用户笔迹的临摹性能。此外,实验也证明了拉普拉斯算子比其他算子提取的风格模式更加清晰,有助于提升文字合成性能。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

拉普拉斯风格增强模块的分析实验验证了高频成分和拉普拉斯对比学习(LapNCE)是不可分割的整体:单独使用会导致One-DM性能显著下降,联合使用二者才能最大程度上提升性能。

原因在于,没有LapNCE的引导,One-DM很难从高频成分中准确提取风格模式。另一方面,由于原图中的风格模式并不清晰,直接将LapNCE应用在原图上也很难提取到理想的风格模式。

一眼临摹的深入分析为什么仅需单张样本的One-DM可以超越需要10几张样本的SOTA方法呢?

首先,One-DM学习到了有意义的风格特征空间,可以根据训练过程中见过的风格灵活创造新的书写风格而不是机械的记忆训练集中的已有风格,如下图所示。然后,借助拉普拉斯风格增强模块,One-DM可以从用户提供的参考样本中准确提取出书写风格特征,并将其映射到特征空间中与用户相近的位置,从而产生高质量的风格化手写文本图像。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

One-DM在中文和日文实验上的深入分析 为什么One-DM在中文和日文实验上远超GAN-based的方法?本文对此做了进一步探究。作者认为,GAN-based方法在较低性能可能源于其基础卷积架构难以处理这些字符的复杂几何结构。相比之下,One-DM作为Diffusion-based方法,将中文和日文等复杂字符的生成过程分解为更简单的步骤。如下图所示,在扩散生成过程的早期阶段,One-DM首先尝试生成一个粗略的中文手写字符。然后,在条件输入的引导下,模型继续细化书写风格(例如字符形状和笔画颜色),直到合成出令人满意的手写体。

编辑丨赵雅鑫

----- END -----

wisemodel相关:

系统升级:

系列模型:

关于wisemodel更多

1

欢迎持续关注和支持

开源社区建设需要长期坚持和投入,更需要广大用户的积极参与、贡献和维护,欢迎大家加入wisemodel开源社区的志愿者计划和开源共创计划。期待更多开发者将开源成果,包括模型、数据集和代码等发布到 wisemodel.cn 社区,共建中立、开放的AI开源社区生态。欢迎扫码添加wisemodel微信,申请加入wisemodel社群,持续关注wisemodel.cn开源社区动态,

2

欢迎加盟wisemodel开源社区

始智AI wisemodel社区自2023年9月上线以来,逐渐成为影响力日益扩大的中立开放的AI开源社区,为了加快公司发展,我们长期需要技术、运营等人才加盟,技术侧重在AI infra、后端开发,熟悉K8S、模型训练和推理等技术, 以及熟悉开发者生态运营的成员,欢迎感兴趣的朋友加盟,可以通过添加wisemodel微信,或者将简历投递到邮箱:liudaoquan@wisemodel.cn

3

欢迎投稿优质内容

欢迎投稿分享人工智能领域相关的优秀研究成果,鼓励高校实验室、大企业研究团队、个人等,在wisemodel平台上分享各类优质内容,可以是AI领域最新论文解读、最新开源成果介绍,也可以是关于AI技术实践、应用和总结等。投稿可以发邮件到liudaoquan@wisemodel.cn,也可以扫码添加wisemodel微信。

4

关于wisemodel开源社区

始智AI wisemodel.cn开源社区由清华校友总会AI大数据专委会副秘书长刘道全创立,旨在打造和建设中立开放的AI开源创新社区,将打造成“HuggingFace”之外最活跃的AI开源社区,汇聚主要AI开源模型、数据集和代码等,欢迎高校科研院所、大型互联网公司、创新创业企业、广大个人开发者,以及政府部门、学会协会、联盟、基金会等,还有投资机构、科技媒体等,共同参与建设AI开源创新生态。

向上滑动查看