牛津大学、中国科大联合中南大学等提出VCode：将图像转为代码，多模态理解性能飙升12.3点！|svg|中南大学|中国科大|中国科学技术大学|代码|模态|牛津大学

文章来源：我爱计算机视觉（ID：aicvml）

最近，来自牛津大学、中国科学技术大学、中南大学和微软研究院的研究者们联手，带来了一项非常有意思的工作：VCode。简单来说，他们不再让AI模型仅仅“看懂”图片，而是要求模型将图片“翻译”成一种名为SVG的代码。这种做法，就像是让AI学习用简笔画和符号来复刻一幅画，不仅要画得像，更要抓住画里的精髓。

这项研究的核心思想是，通过生成精确、可执行的代码，我们可以更深入地检验和提升AI对视觉世界的理解能力。

论文标题 : VCode: a Multimodal Coding Benchmark with SVG as Symbolic Visual Representation

作者 : Kevin Qinghong Lin, Yuhao Zheng, Hangyu Ran, Dantong Zhu, Dongxing Mao, Linjie Li, Philip Torr, Alex Jinpeng Wang

论文地址 : https://arxiv.org/abs/2511.02778

项目主页 : https://csu-jpg.github.io/VCode

代码仓库 : https://github.com/CSU-JPG/VCode

背景：从像素到符号，AI视觉的进阶之路

我们知道，现在的大模型（VLMs）在处理语言任务上已经非常强大，但在理解视觉信息方面，它们大多还停留在像素层面。也就是说，模型看到的是一堆RGB值，虽然能识别出物体，但很难像人类一样，提炼出物体之间的结构、关系和符号意义。

举个例子，人类看到一张画，可能会随手画个草图，勾勒出主要轮廓和布局。这个草图就是一种符号化的表示，它紧凑、易于理解，并且抓住了核心信息。受到这个启发，研究者们想，能不能让AI也学会这种“打草稿”的能力呢？

他们选择了SVG（可缩放矢量图形）作为这种“草图”的载体。SVG是一种用代码来描述图形的格式，具有紧凑、可解释和可执行的优点。于是，一个全新的任务诞生了：将图片（像素表示）转化为SVG代码（符号表示）。

为了系统地评估模型将图像转化为SVG代码的能力，研究团队构建了 VCode 基准。这个基准并非从零开始，而是巧妙地“再利用”了现有的三个经典多模态评测集，覆盖了不同难度和维度的挑战：

通过这三个维度的考验，VCode能够全面地衡量一个模型是否真正“理解”了图像的符号意义。

CodeVQA：一种新颖的评估范式

那么，如何判断模型生成的SVG代码好不好呢？传统的像素级对比显然不合适，因为我们追求的是“神似”而非“形似”。

为此，论文提出了一个名为 CodeVQA 的创新评估方法。它的流程是：

如果策略模型能够正确回答，就说明SVG代码成功地保留了原图的关键符号信息。反之，则说明转化过程中信息丢失了。CV君认为，这种评估方式非常巧妙，它绕开了像素比较的难题，直击“符号保真度”这一核心。

实验发现，即便是当前最强的多模态大模型（如GPT-4o, Claude 3 Opus），在VCode基准上的表现也差强人意。这暴露了它们在视觉中心编码能力上的短板。

为了解决这个问题，研究者们提出了一个名为 VCoder 的代理框架，它从两个方面来增强现有VLM的能力：

思考与修正 (Thinking with Revision) : 这是一个迭代优化的过程。模型首先生成一个初始版本的SVG，然后自己对比渲染图和原图的差异，并“写下”评论，最后根据这些评论来修改代码。这个过程循环往复，不断提升SVG的保真度。
行动与视觉工具 (Acting with Visual Tools) : 允许模型调用外部的“视觉工具箱”，比如物体检测器、分割模型、OCR工具等。这些工具可以提供关于物体类别、位置、形状、颜色和文本的结构化信息，作为代码生成的“辅助线”，弥补模型自身在底层感知上的不足。

实验结果：效果显著，但前路漫漫

搭载了VCoder框架后，模型性能得到了巨大提升。

从上表的主实验结果可以看出：

现有模型仍有差距 ：即使是像GPT-5这样的顶级模型，在CodeVQA上的得分（46.8）也远低于直接在原图上进行问答的上限（61.7），说明从图像到符号代码的转换仍然是一个巨大的挑战。
VCoder提升巨大 ：基于Claude-4-Opus，VCoder框架带来了 12.3个点 的惊人总体性能提升，证明了“思考与修正”和“行动与视觉工具”这两大法宝的有效性。
知识和3D是难点 ：所有模型在需要专业知识和3D空间推理的子任务上表现普遍不佳，这指明了未来研究需要攻克的方向。

下面的定性结果更直观地展示了VCoder的威力。无论是网络迷因图，还是涉及艺术理论和3D场景的复杂图像，VCoder生成的SVG都更加忠实于原作的结构和语义。