可缩放矢量图形(SVG)因其分辨率无关性和可编辑性,成为平面设计中广泛采用的重要图像格式。生成高质量SVG的研究持续吸引着AIGC领域设计师与研究者的关注。然而现有方法要么输出非结构化结果且计算成本高昂,要么仅能生成结构过度简化的单色图标。
因此为产出高质量复杂SVG,复旦提出OmniSVG—一个利用预训练视觉语言模型(VLMs)进行端到端多模态SVG生成的统一框架。OmniSVG能够自回归生成覆盖广泛复杂度的高质量SVG—从简单图标到精细动漫角色皆可胜任。该框架通过文本生成SVG(Text-to-SVG)、图像转SVG(Image-to-SVG)和角色参照SVG(Character-Reference SVG)等多模态生成方式,展现出卓越的泛化能力,成为适应多样化创意需求的强大灵活解决方案。(链接在文章底部)
01 技术原理
OmniSVG基于预训练视觉语言模型Qwen-VL构建,并集成了SVG分词器。该模型将文本和图像输入统一编码为前缀标记(prefix tokens),同时通过SVG分词器将矢量图形指令编码至统一表征空间。
SVG 绘图指令:OmniSVG使用的绘图指令及其参数和可视化效果如下所示。起始位置 (x1, y1) 是隐式定义的,即由前一个指令的结束位置决定。
与当前最先进方法在 Text-to-SVG 任务上的定性对比。在评估基准(包括图标、插画和角色)上,将所提出的方法与当前最先进的 Text-to-SVG 方法进行了比较。
局限性与未来工作:推理阶段,OmniSVG生成复杂样本时需产出数万量级标记,导致生成耗时显著。当前框架仅支持矢量风格图像输入,无法处理自然图像。
02 演示效果与数据集
文本转SVG: 图像转SVG:
角色参考 SVG:
MMSVG-2M 数据集由三个子集组成,分别为图标(Icon)、插画(Illustration)和角色(Character)。其中,图标、插画以及部分角色子集的样本来自互联网下载;另一部分角色子集由数据生成流程自动构建,可为图像提示任务提供图像与 SVG 的配对数据。
OmniSVG 在图像转 SVG 任务中的局限性:OmniSVG 能够成功生成矢量风格图像,但无法很好地拟合自然图像。
https://arxiv.org/pdf/2504.06263
https://github.com/OmniSVG/OmniSVG欢迎交流~,带你学习AI,了解AI
热门跟贴