打开网易新闻 查看精彩图片

在艺术学习的世界里,最让人着迷的莫过于能够亲眼目睹一幅画作从空白画布到完成作品的整个创作过程。然而,传统的绘画教程视频往往存在诸多局限:缺乏互动性、无法个性化定制,更重要的是,现有的人工智能模型在生成绘画过程时经常出现时间不连贯、结构跳跃等问题,难以真实还原人类艺术家的创作流程。

这项由意大利特伦托大学的马库斯·波比策尔(Markus Pobitzer)、常柳(Chang Liu)、庄晨逸(Chenyi Zhuang)、龙腾(Teng Long)、任斌(Bin Ren)以及尼库·塞贝(Nicu Sebe)领导的研究团队,于2025年11月发表在arXiv预印本平台(编号arXiv:2511.17344v1)的论文,为这一难题提供了令人惊艳的解决方案。他们开发的"Loomis Painter"系统,能够将任何输入图片重构成一个完整的绘画过程视频,就像时光倒流一般,让我们看到这幅画是如何一笔一画创作出来的。有兴趣深入了解的读者可以通过论文编号arXiv:2511.17344v1在arXiv平台查询完整论文。

这项技术的神奇之处在于,它不仅能忠实地重现原始绘画过程,还能将同一幅图片转换成不同艺术媒介的绘画过程。无论是油画的层层叠叠、铅笔素描的逐步深入,还是丙烯画的色彩渐变,系统都能准确模拟出相应的绘画技法和时序特征。更令人惊叹的是,该系统还能够实现著名的卢米斯(Loomis)肖像绘画方法,这是一种经典的人像绘画技法,强调正确的比例和结构性绘画方法。

研究团队的创新核心是一个统一的多媒介绘画过程生成框架,结合了语义驱动的风格控制机制。这个框架能够将多种艺术媒介嵌入到扩散模型的条件空间中,通过跨媒介风格增强技术,实现一致的纹理演化和跨风格的过程转换。同时,他们提出的"逆向绘画"训练策略确保了生成过程的平滑性和人类绘画习惯的一致性。

为了训练这个系统,研究团队构建了一个大规模的真实绘画过程数据集,并在跨媒介一致性、时间连贯性和最终图像保真度方面进行了全面评估。他们在LPIPS、DINO和CLIP等评估指标上都取得了优异的表现。此外,团队还提出了一种全新的评估方法——感知距离轮廓(PDP)曲线,能够定量地模拟创作序列,包括构图、色彩铺设和细节精修等人类艺术创作的典型阶段。

### 一、传统绘画教学的困境与AI绘画生成的挑战

当我们想要学习绘画技巧时,最直接的方法就是观看绘画教程。就像学做菜需要看厨师的每一个步骤一样,学画画也需要看到艺术家的每一笔是如何落在画布上的。然而,现有的绘画教学资源存在着明显的局限性。

传统的书籍教程就像静态的照片菜谱,只能展示最终成果,却无法显示动态的制作过程。而YouTube上的绘画视频虽然能展示完整过程,但就像单向播放的录像一样,缺乏互动性和个性化指导。更关键的是,这些视频往往无法针对不同的输入图片提供相应的绘画过程演示。

近年来,人工智能在艺术图像合成方面取得了显著进展,但在过程级建模方面仍然面临重大挑战。现有的生成模型在创建绘画序列时,经常出现时间不连续、结构跳跃以及跨艺术媒介泛化能力差等问题。这就好比一个机器人厨师能做出美味的菜肴,但在制作过程中会突然跳过某些步骤,或者无法适应不同的烹饪方式。

具体来说,当前的绘画生成方法主要分为两类。第一类是神经绘画方法,比如Paint Transformer,这些方法将绘画视为一个参数化渲染问题,通过前馈架构逐步生成笔触参数。然而,这种方法合成的笔触序列往往偏离真实艺术家的构图方式,就像一个从未学过正统烹饪的人试图模仿大厨的手法,形似而神不似。

第二类是像素级生成方法,直接在像素层面合成绘画序列。早期的方法如Inverse Painting采用自回归的三阶段流程,通过与参考图像比较中间帧、遮罩下一个操作区域并通过扩散更新像素来重构绘画工作流。更近期的ProcessPainter利用图像扩散模型生成绘画过程,但主要使用合成数据进行训练。PaintsUndo专注于重现动漫风格绘画的绘画过程,而PaintsAlter将这一想法扩展到视频扩散,以实现更连续的进展。

尽管这些方法取得了一定进展,但它们在处理多样化艺术媒介时仍然存在明显不足。就像一位只会做中餐的厨师突然要做法餐一样,现有方法往往无法很好地适应不同的绘画风格和技法特征。

### 二、Loomis Painter的核心创新:逆向思维重构绘画过程

面对这些挑战,特伦托大学的研究团队提出了一个极具创新性的解决方案。他们的核心洞察是:与其试图预测下一笔画什么,不如学会如何"撤销"上一笔。这种逆向思维就像学习拆解一台精密机器一样,通过理解每个部件是如何安装的,我们就能掌握整个组装过程。

传统的绘画生成方法采用前向预测,就像试图预测故事的下一个情节发展。这种方法的问题在于,绘画创作具有高度的不确定性和创造性,下一笔的位置和颜色可能有无数种选择。而Loomis Painter采用的逆向学习策略,则是从完成的画作开始,逐步学习如何回到空白画布。这种方法的优势在于,每一步的目标都是明确的:如何移除当前的一部分内容来接近前一个阶段。

这种逆向训练策略解决了两个关键问题。首先,现有的图像到视频模型通常被训练为在初始帧重构输入图像,这在我们的情况下对应于完成的绘画。如果要先生成空白画布,就需要大量重新训练来覆盖这种默认行为。其次,输入图像的时序位置与生成过程存在错位。在视频扩散模型中,图像通常放在第一个时间位置,但这与渐进式绘画轨迹的期望序列不匹配。

通过时序反转,研究团队巧妙地重新组织了时序监督,实现了更平滑的过程建模。给定一个从空画布到完成作品的原始绘画视频,他们构建其反转序列。这种反转自然引入了单调的"细节移除"过程:高频纹理逐渐消失,色彩区域简化为粗糙的结构块,底层构图变得越来越突出。

### 三、跨媒介艺术风格的统一建模

Loomis Painter的另一个重要创新是实现了跨媒介艺术风格的统一建模。这就像培养一位多才多艺的艺术家,不仅要会油画,还要精通素描、水彩等各种技法,更重要的是要理解不同媒介之间的内在联系。

为了实现媒介感知的过程控制,研究团队引入了一种语义条件机制,将文本媒介属性整合到时序生成过程中,并将它们与跨媒介的一致结构线索对齐。具体来说,给定艺术媒介的文本描述(如"油画"、"铅笔素描")和场景描述,系统构建一个组合语义提示,预训练的文本编码器将其转换为语义嵌入,作为生成模型的条件向量。

在扩散过程中,这个条件信息通过交叉注意力机制注入,允许媒介语义直接影响每个时间步的潜在特征时序演化。这种嵌入驱动风格特征和程序特征:例如,模型学习油画中的颜色分层行为或铅笔素描中的渐进填充图案,使得能够合成媒介适当的工作流程。

为了实现任意输入图像到相应艺术媒介的转换,团队提出了跨媒介训练策略。他们对给定图像应用风格变换以获得变体,保留物体和语义的同时移除原始艺术媒介的身份特征。这种策略让模型接触到不同风格下一致的形状、轮廓和空间关系,使其能够学习这些元素如何映射到目标艺术媒介。每个物体随时间逐步渲染,模拟自然的绘画过程。

### 四、大规模真实绘画数据集的构建

要训练出高质量的绘画过程生成模型,就像培养一位优秀的艺术家一样,需要大量真实的绘画过程数据作为"教材"。然而,从原始教程视频中提取高质量的绘画过程数据面临着诸多挑战,最主要的问题是画家的手部、画笔等物体会遮挡画布,影响模型学习真正的笔触变化。

研究团队开发了一套完整的数据处理流水线来解决这些问题。这个过程就像一位专业的视频编辑师,需要精确地识别并移除所有不必要的干扰元素,同时保留绘画过程的核心信息。

首先,系统会自动检测视频中的起始和结束帧,通过识别"手"的首次和最后出现来隔离核心绘画过程,这就像在一部电影中找到正片的开始和结束一样。接下来,对于画布定位,系统使用零样本目标检测技术查询"画布"。对于分屏教程(如卢米斯肖像教程,通常在左侧显示参考照片,右侧显示画布),系统会计算水平强度梯度并在梯度最大的列处分割图像,有效分离画布区域。

处理遮挡问题时,系统将修剪后的视频分割成多个时间段,从每段中采样一定数量的帧。然后使用先进的分割模型检测遮挡物(如手部、画笔),通过计算采样帧的遮罩中位数生成每段的干净帧。这种计算会迭代地包含前段的中位数帧来填充持续遮挡的区域,最初以空白白色画布初始化。

最后,在后处理阶段,系统会检测并移除标志和文字叠加,确保最终的训练数据纯净无干扰。整个流水线在NVIDIA RTX A4000 GPU上能够接近实时地处理分辨率为640x360像素的视频,实现了高效的数据集策划。

通过这套流水线,研究团队策划了一个包含767个绘画教程视频的大规模数据集,涵盖丙烯画、油画、铅笔画和卢米斯肖像等多种艺术媒介。其中丙烯画子集包含81个写实丙烯风景画教程,强调湿画湿法混合和分层等技法;油画子集收集了151个油画教程,包括142个印象派风景画和9个写实绘画;铅笔子集包含270个铅笔和28个彩色铅笔教程;卢米斯肖像子集包含207个遵循安德鲁·卢米斯比例方法的肖像教程。

### 五、创新评估体系:感知距离轮廓曲线

评估绘画过程的质量不能仅仅依靠传统的图像质量指标,就像评价一部电影不能只看最后一帧的画面质量一样。绘画过程的评估需要考虑整个创作序列的合理性、时间连贯性以及是否符合人类艺术家的创作习惯。

为此,研究团队提出了一个全新的评估指标——感知距离轮廓(Perceptual Distance Profile, PDP)。这个指标的核心思想是通过测量视频中每一帧与最终完成作品之间的感知距离,来构建一条描述创作进程的曲线。

PDP的工作原理就像记录一位艺术家的创作节奏一样。在绘画开始时,空白画布与最终作品的差异最大,随着绘画进程的推进,这种差异逐步缩小,直到作品完成。真实的人类绘画过程通常遵循一个特定的模式:开始时进展较快(建立基本构图),然后稳步推进(添加主要色彩和形状),最后阶段进展放缓(精细化细节)。

通过比较生成视频和真实绘画过程的PDP曲线,可以量化评估生成的绘画过程是否符合人类的创作规律。这种评估方法的优势在于它不要求两个视频具有相同的帧数,因为曲线会被插值到统一的时间轴上进行比较。

实验结果表明,研究团队的方法在所有评估指标上都取得了最佳性能。在传统的LPIPS、CLIP和DINOv2指标上,Loomis Painter显著优于现有的基线方法,包括Inverse Painting、ProcessPainter和PaintsUndo。更重要的是,在PDP评估中,该方法生成的绘画过程曲线与真实人类绘画过程高度吻合,证明了其在模拟真实艺术创作流程方面的优越性。

### 六、广泛的应用前景与实际效果

Loomis Painter的应用前景极其广阔,就像一把万能钥匙,能够打开艺术教育、内容创作、数字媒体等多个领域的新大门。在艺术教育方面,这项技术能够为任何参考图片生成对应的绘画教程,让学习者能够看到具体的创作步骤。无论是想要学习如何画一只兔子、一座城堡,还是一幅肖像,系统都能提供详细的逐步指导。

在内容创作领域,这项技术为视频制作者和艺术博主提供了全新的创作可能。他们可以使用现有的艺术作品生成对应的绘画过程视频,而无需实际完成整个绘画过程。这大大降低了教学内容制作的门槛和时间成本。

系统的多媒介支持能力使其能够满足不同学习者的需求和偏好。有些人可能更喜欢铅笔素描的简洁明了,有些人则偏爱油画的丰富层次,还有人对丙烯画的明快色彩情有独钟。Loomis Painter能够将同一幅参考图片转换成不同艺术媒介的绘画过程,为学习者提供多样化的学习体验。

特别值得一提的是卢米斯肖像方法的实现。这是一种经典的人像绘画技法,由安德鲁·卢米斯开发,强调正确的比例和结构性方法。该技术能够将任何人像照片转换成卢米斯风格的素描过程,展示如何将头部分割成区域以便于结构化绘画。尽管主要在人脸上训练,但模型表现出了强大的泛化能力,甚至能够扩展到动物头部的绘制。

在实际测试中,系统展现出了令人印象深刻的效果。当输入一张兔子的图片时,系统能够生成完整的素描过程,从最初的轮廓勾勒到逐步添加细节,整个过程自然流畅,符合真实艺术家的绘画习惯。对于复杂的风景画,系统同样能够准确地模拟出从构图建立、色彩铺设到细节精修的完整流程。

### 七、技术挑战与未来改进方向

尽管Loomis Painter取得了显著成果,但研究团队也诚实地指出了当前技术的一些局限性。这些限制就像新技术发展路上的里程碑,标志着未来努力的方向。

数据处理方面仍有改进空间。目前的遮挡检测系统无法检测手部阴影,导致训练数据中出现暗色伪影,这在铅笔画生成中尤为明显,通常表现为右下区域的阴影。这个问题的根源在于,阴影是光影效果而非物理遮挡,现有的分割模型难以准确识别和处理。

模型的训练数据分布也带来了一些局限。基础模型在肖像绘制方面存在困难,因为训练期间很少接触肖像类内容。在某些情况下,模型会试图在绘画过程中移动人物头部,这显然不符合正常的绘画逻辑。不过,艺术媒介转换模型通过在卢米斯肖像照片上的微调解决了这个问题。

跨媒介生成的局限性也值得注意。当生成训练期间未见过的内容和艺术媒介组合时,艺术媒介模型有时会失效。例如,将卢米斯方法应用于非肖像绘画,或者对人像使用丙烯画方法(因为该方法主要在风景画上训练)时,效果可能不够理想。

数据集的媒介分布也存在偏差,主要偏向铅笔类绘画序列,彩色工作流程的样本相对较少。艺术家的多样性也有限,且许多教程包含过度的相机移动、缩放和遮挡,这些都会影响时序一致性。

未来的改进方向已经有了明确的轮廓。研究团队指出,要全面支持人类艺术家的绘画之旅,仅仅展示逐步序列是不够的。理解绘画过程还需要指示选择了哪些颜色、如何混合、使用了什么工具(铅笔或画笔),以及如何在画布上应用它们。这些更精细的控制信息将是下一阶段研究的重点。

此外,扩大数据集的规模和多样性,改进遮挡检测算法以处理阴影等复杂情况,以及增强模型对不同艺术风格组合的适应能力,都是值得探索的发展方向。随着技术的不断完善,我们有理由相信,Loomis Painter将为艺术教育和创作领域带来更加革命性的变化。

说到底,Loomis Painter代表着人工智能与艺术教育结合的一次重要突破。它不仅解决了传统绘画教学中的诸多痛点,还开辟了全新的艺术学习和创作可能性。虽然目前仍有一些技术挑战需要克服,但这项研究已经为我们展示了一个令人兴奋的未来图景:在不久的将来,任何人都可能拥有一位私人绘画导师,能够针对任何想要学习的图片提供详细的、个性化的绘画指导。这种技术的普及将极大地降低艺术学习的门槛,让更多人能够享受绘画的乐趣并掌握这门古老而美丽的艺术形式。

Q&A

Q1:Loomis Painter是什么?

A:Loomis Painter是由意大利特伦托大学开发的AI绘画过程生成系统,能够将任何输入图片重构成完整的绘画过程视频,就像看到画家一笔一笔完成作品的全过程。它不仅能忠实重现原始绘画过程,还能将同一幅图转换成油画、素描、丙烯画等不同艺术媒介的绘画流程。

Q2:这个技术跟现有的AI绘画工具有什么区别?

A:与现有AI绘画工具最大的不同是,Loomis Painter专注于生成绘画"过程"而不是静态结果。它采用创新的"逆向绘画"策略,从完成作品倒推到空白画布,避免了传统方法中常见的时间跳跃和结构不连贯问题。同时支持多种艺术媒介转换,能真实模拟不同绘画技法的特色流程。

Q3:普通人可以用Loomis Painter学画画吗?

A:理论上是可以的,这正是该技术的主要应用前景。用户只需输入一张想要学习绘制的图片,系统就能生成对应的逐步绘画教程,展示从构图到细节的完整创作过程。不过目前这还是实验室阶段的研究成果,尚未开发成普通用户可直接使用的产品。