文章来源:我爱计算机视觉(ID:aicvml)
最近,来自牛津大学、中国科学技术大学、中南大学和微软研究院的研究者们联手,带来了一项非常有意思的工作:VCode。简单来说,他们不再让AI模型仅仅“看懂”图片,而是要求模型将图片“翻译”成一种名为SVG的代码。这种做法,就像是让AI学习用简笔画和符号来复刻一幅画,不仅要画得像,更要抓住画里的精髓。
这项研究的核心思想是,通过生成精确、可执行的代码,我们可以更深入地检验和提升AI对视觉世界的理解能力。
论文标题 : VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation
作者 : Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang
论文地址 : https://arxiv.org/abs/2511.02778
项目主页 : https://csu-jpg.github.io/VCode
代码仓库 : https://github.com/CSU-JPG/VCode
我们知道,现在的大模型(VLMs)在处理语言任务上已经非常强大,但在理解视觉信息方面,它们大多还停留在像素层面。也就是说,模型看到的是一堆RGB值,虽然能识别出物体,但很难像人类一样,提炼出物体之间的结构、关系和符号意义。
举个例子,人类看到一张画,可能会随手画个草图,勾勒出主要轮廓和布局。这个草图就是一种符号化的表示,它紧凑、易于理解,并且抓住了核心信息。受到这个启发,研究者们想,能不能让AI也学会这种“打草稿”的能力呢?
他们选择了SVG(可缩放矢量图形)作为这种“草图”的载体。SVG是一种用代码来描述图形的格式,具有紧凑、可解释和可执行的优点。于是,一个全新的任务诞生了:将图片(像素表示)转化为SVG代码(符号表示)。
为了系统地评估模型将图像转化为SVG代码的能力,研究团队构建了 VCode 基准。这个基准并非从零开始,而是巧妙地“再利用”了现有的三个经典多模态评测集,覆盖了不同难度和维度的挑战:
通用常识 (MM-Vet) : 考察模型对日常场景和空间关系的理解。
专业学科 (MMMU) : 涉及大学水平的专业知识,需要模型具备更深层次的推理能力。
视觉感知 (CV-Bench) : 专注于更纯粹的视觉任务,如物体计数、距离估计和三维关系判断。
通过这三个维度的考验,VCode能够全面地衡量一个模型是否真正“理解”了图像的符号意义。
CodeVQA:一种新颖的评估范式
那么,如何判断模型生成的SVG代码好不好呢?传统的像素级对比显然不合适,因为我们追求的是“神似”而非“形似”。
为此,论文提出了一个名为 CodeVQA 的创新评估方法。它的流程是:
模型根据原图生成SVG代码。
将SVG代码渲染成一张新的图片。
让一个策略模型(Policy Model)看着这张渲染出来的图片,回答关于原图的问题。
如果策略模型能够正确回答,就说明SVG代码成功地保留了原图的关键符号信息。反之,则说明转化过程中信息丢失了。CV君认为,这种评估方式非常巧妙,它绕开了像素比较的难题,直击“符号保真度”这一核心。
实验发现,即便是当前最强的多模态大模型(如GPT-4o, Claude 3 Opus),在VCode基准上的表现也差强人意。这暴露了它们在视觉中心编码能力上的短板。
为了解决这个问题,研究者们提出了一个名为 VCoder 的代理框架,它从两个方面来增强现有VLM的能力:
思考与修正 (Thinking with Revision) : 这是一个迭代优化的过程。模型首先生成一个初始版本的SVG,然后自己对比渲染图和原图的差异,并“写下”评论,最后根据这些评论来修改代码。这个过程循环往复,不断提升SVG的保真度。
行动与视觉工具 (Acting with Visual Tools) : 允许模型调用外部的“视觉工具箱”,比如物体检测器、分割模型、OCR工具等。这些工具可以提供关于物体类别、位置、形状、颜色和文本的结构化信息,作为代码生成的“辅助线”,弥补模型自身在底层感知上的不足。
搭载了VCoder框架后,模型性能得到了巨大提升。
从上表的主实验结果可以看出:
现有模型仍有差距 :即使是像GPT-5这样的顶级模型,在CodeVQA上的得分(46.8)也远低于直接在原图上进行问答的上限(61.7),说明从图像到符号代码的转换仍然是一个巨大的挑战。
VCoder提升巨大 :基于Claude-4-Opus,VCoder框架带来了 12.3个点 的惊人总体性能提升,证明了“思考与修正”和“行动与视觉工具”这两大法宝的有效性。
知识和3D是难点 :所有模型在需要专业知识和3D空间推理的子任务上表现普遍不佳,这指明了未来研究需要攻克的方向。
下面的定性结果更直观地展示了VCoder的威力。无论是网络迷因图,还是涉及艺术理论和3D场景的复杂图像,VCoder生成的SVG都更加忠实于原作的结构和语义。
消融实验进一步证明,无论是引入视觉工具(特别是形状和文本信息),还是增加修正的轮次,都能稳定地提升模型性能。
总的来说,VCode不仅为多模态领域提供了一个全新的、富有挑战性的视角,也通过VCoder框架展示了提升模型符号推理能力的有效路径。这项工作让我们离真正能像人一样思考和理解视觉世界的AI又近了一步。
你觉得这个技术未来会用在哪些场景?一起来聊聊吧!
热门跟贴