EmoStyle：情感也能“风格化”？深大VCC带你见证魔法！|emostyle|艺术|表现力|视觉

EmoStyle 由深圳大学可视计算研究中心黄惠教授课题组独立完成，第一作者为杨景媛助理教授，第二作者为研二硕士生柏梓桓。深圳大学可视计算研究中心（VCC）以计算机图形学、计算机视觉、人机交互、机器学习、具身智能、可视化和可视分析为学科基础，致力前沿探索与跨学科创新。中心主任黄惠为深圳大学讲席教授、计算机学科带头人、计算机与软件学院院长。

论文标题：EmoStyle: Emotion-Driven Image Stylization
论文链接：https://arxiv.org/abs/2512.05478
项目主页：https://vcc.tech/research/2026/EmoStyle
项目代码：https://github.com/JingyuanYY/EmoStyle

很多时候，我们心里攒满了表达的愿望，却因为没有绘画功底、缺乏艺术训练，只能对着相册里平淡的照片发呆。比如，明明想拍下那个午后的惬意，镜头里却只剩下一片苍白的过曝；在过年返工的路上，看着窗外灰蒙蒙的天空，心里正泛起一阵阵 “emo”，那一刻你多希望能在画面里抹上一笔明媚的色彩，去治愈现实的沉闷。

EmoStyle 想做的很简单：你只需要提供一种 “情感”，剩下的创作，它替你完成。

你不用去学怎么调色，用什么笔触，也不用纠结什么艺术流派。你只需要告诉它，现在的你想要一点 “明媚”，或者一点 “怀旧”，它就像一个懂你的小画家，替你点亮脑海里尘封的感受，绘制出一幅幅有温度、有故事的作品。我们相信，每个人都能够把生活过得有创意一点，哪怕只是从给照片换个心情开始。

图像情感风格化（Affective Image Stylization）具有双重目标：

精准且显著地唤起目标情感
保持编辑后图像与原图的语义一致性

如下图所示，AIS 融合了风格迁移和 AIM (Affective Image Manipulation) 的优势，弥补了它们之间的差距：它能够在像 AIM 一样唤起情感的同时，像风格迁移一样生成风格化的结果。AIS 主要面对两大关键挑战：（1）训练数据的缺失：现有的数据集无法提供 “内容 - 情感 - 风格化 “的图像三元组用于情感风格化任务；（2）建立情感和风格之间的映射：生成在保持内容一致性同时又富有情感表现力的风格变体，绝非易事。

为解决上述两大挑战，本文的主要贡献如下：

提出EmoStyle，一种能够有效融合情感词与图像内容，并实现情感感知的图像风格化任务的方法；
构建首个 AIS 数据集EmoStyleSet，涵盖 10,041 个三元组，提供高质量且风格丰富的情感风格化基准，推动视觉情感研究。
设计Emotion-Content ReasonerStyle Quantizer模块，融合 EmoStyleSet 的情感知识，有效提升生成模型的情感感知能力，并推广到文生图任务领域。

EmoStyleSet 的构建

鉴于现有数据集的缺失，我们首先利用 UnZipLoRA 将 Artemis 数据集中所涵盖的艺术图像解耦进行内容 LoRA 的学习，并结合 ControlNet 生成对应的真实图像。考虑到艺术图像内容和风格解耦的复杂性，我们对生成的图像施行指标测量和人工筛选的过滤过程，以提升数据集的整体质量。

Emotion-Content Reasoner 的设计

在艺术创作中，风格与内容是紧密交织的，艺术家会自然地调整其风格选择，使其与主题内容和情感意图相契合。AIS的一大关键挑战在于如何选择合适的艺术风格以有效激发目标情感。

为此，我们首先提出了 Emotion-Content Reasoner，旨在根据给定内容图像和目标情感确定最合适的风格。

通过将情感词编码为 one-hot 向量，结合由 SigLIP 编码的图像特征，由 transformer 完成跨模态推理，推导出一种情感和内容感知的风格查询，用于后续的风格选择。

Style Quantizer 的设计

在人类视觉认知中，艺术风格往往认为是离散的类别，而非连续的，例如 Impressionism。因此，我们提出 Style Quantizer，将风格特征离散化为独立的原型，从而实现可解释且可控的风格学习。

在训练过程中，我们通过风格损失，流匹配损失和对齐损失经过两阶段训练共同优化网络：

其中，风格损失侧重于风格相似性，流匹配损失侧重于像素相似性，对齐损失侧重于情感正确性。

实验结果

在对比实验中，我们从风格迁移，图像编辑和 AIM 三种不同任务中选择了对比方法。与其他方法相比，EmoStyle 在情感表达与内容保留之间实现了卓越的平衡，呈现出既美观又富有情感感染力的风格化效果，使其成为情感驱动的艺术风格化创作的有效框架。

在消融实验中，若不使用 Style Quantizer，结果往往更接近真实图像；Emotion Encoder 和 Emotion-Content Reasoner 对情感感知风格化至关重要，移除它们将导致结果情感感染力减弱。通过整合这些关键模块，EmoStyle 能够生成情感真实、艺术性强且内容一致的图像。