打开网易新闻 查看精彩图片

代码驱动的视觉感知,正在为大模型补上「看」这门必修课。

作者丨陈淑瑜

编辑丨岑 峰

如果把过去几年多模态大模型在STEM领域的进展放在一起审视,会发现一个相当微妙的错位。研究者们几乎把全部精力都押在了推理能力的提升上,强化学习、思维链、自我纠错……各种花式推理策略层出不穷,模型在文本推理基准上的得分也确实在节节攀升。

但一个尴尬的事实始终摆在那里:当模型被丢进一道需要看图才能解答的几何题时,它依然经常给出让人啼笑皆非的答案。

这中间到底出了什么问题?

过去,业界习惯性地把锅甩给“推理能力不足”,认为只要把CoO做得更长、把RL奖励设计得更精巧,模型自然能在视觉推理任务上迎头赶上。于是大量的工作涌向推理链路优化,视觉感知端却几乎被当成了一个“已经够用”的黑箱。

但上海交通大学人工智能研究院与Qwen团队联合提出的CodePercept(代码驱动的视觉感知),则给出了一个截然不同的诊断结果:

当前阶段,限制大模型STEM视觉推理的真正瓶颈,并非是推理能力,而是视觉感知。

打开网易新闻 查看精彩图片

论文地址:https://arxiv.org/pdf/2603.10757

开源代码:

https://github.com/TongkunGuan/Qwen-CodePercept

这不是一个随意的猜想。团队的诊断方式非常系统,他们将STEM视觉推理任务解耦为“感知”和“推理”两个阶段,分别扩展其中一个能力、同时保持另一个能力不变。结果证明,扩展感知能力带来的性能提升,始终优于扩展推理能力。

打开网易新闻 查看精彩图片

图1:扩展感知优于扩展推理

换句话说,模型的“眼神”远比我们想象的更差,而解决“眼神差”的问题,带来的边际收益远超继续优化“脑子”。

01

自然语言的天花板

一旦确认“感知才是短板”,接下来的问题就是:如何提升感知?

一个直觉方案是:用强大的闭源模型去生成图像描述(Caption),然后做知识蒸馏。既然GPT-5和Claude看得懂,让它们当老师不就行了?

但研究团队在实际操作中发现了一个更深层的问题:自然语言是模糊的,表达能力存在上限,很难非常精准地描述一个场景。

想象一下,你要用文字去精确描述一个三维四面体的空间结构,包括每条棱的长度、每个面的倾斜角、辅助线的空间走向。即便你用上了“位于左下角45度方向、长度为3.2cm、与水平面夹角30度”这样精确的语言,描述依然是模糊的。因为自然语言本质上就是为“大概意思”而生的媒介,它天然缺乏数学层面的精确性。

更致命的是,这种描述的模糊性还会在被AI生成描述的过程中进一步放大。

团队将这个问题概括为自然语言的“描述性失语”。

但如果说自然语言是“模糊”的,那什么语言才是“精确”的?

答案是代码。

一段Python程序画出的几何图形,每个坐标都是确定的、每个参数都是可验证的、每个空间关系都是可执行的。

代码不承认“差不多”,要么对,要么运行报错。这种二值化的精确性,恰恰是STEM视觉感知最需要的。

02

让代码成为视觉感知的“第二语言”

基于这一洞察,研究团队提出了一个全新的范式——CodePercept(代码驱动的视觉感知),其核心思想可以用一句话概括:让代码成为视觉感知的“第二语言”。

团队从两个维度系统性地用代码重新定义了视觉感知任务:

第一个维度:代码驱动的描述生成(Code-Grounded Caption Generation)。

传统Caption生成的做法是“看图说话”,模型看了图,生成一句自然语言描述。但CodePercept的做法变成了“看图→写代码→用代码验证描述”的三段式。

可执行代码被当作图像描述的“绝对真理”,代码中写明的坐标、数量、几何关系,无一不是对原始图像的精确转录。模型通过生成可执行的代码来“验证”自己对图像的理解是否正确。

第二个维度:STEM图像到代码转录(STEM Image-to-Code Translation)

这比前一个步子迈得更大。

团队直接引导模型学习从图像到代码的端到端映射,给大模型一张几何图,让它直接生成能够重现这张图的Python代码。这不是让模型去“描述”图,而是让模型去“复现”图。

这个任务的精妙之处在于它的可验证性:代码是唯一一种可以“执行后验证”的表达形式。你描述一张图,没人知道你描述得对不对;但你写一段代码,运行之后渲染出来的图一比对,对就是对,错就是错。没有中间地带。

由于模型必须真正理解“观测特征”与“代码片段”之间的内在映射法则,才能生成正确的重建代码,所以这种二值化的确定性反馈,反过来又迫使模型得以建立更精确的视觉理解。

打开网易新闻 查看精彩图片

图 2. CodePercept 的总体流程图

Part 01:构建高质量图像-代码对 Part 02:代码驱动的描述生成、STEM图像到代码转录Part 03:形成 ICC-1M数据库。

03

百万级数据的炼成

新范式的落地,需要与之匹配的训练数据。但问题是,代码驱动的视觉感知数据在现实中几乎不存在,无法仅靠简单地爬取网页就得到“图像-描述-代码”三元组。

为此,研究团队构建了ICC-1M数据集,包含100万个高质量的三元组(Image-Caption-Code),并通过三条创新的合成流水线实现了从零到百万的数据生产:

第一条:图像复现(Image Reproduction):将现有的STEM图像精准转化为可执行的Python代码。

这相当于给每张图配上一段“源代码”,确保代码与图像之间形成严格的对应关系。

第二条:图像多样化(Image Diversity):提取种子图像的核心STEM原理,在不改变数学本质的前提下,通过参数变化在不同的视觉语境中重新实例化,从而生成大量视觉上不同但原理一致的新图像。

第三条:立体几何合成(Solid Geometry Synthesis):基于模板的立体几何代码生成,能够产生大量包含三维空间变换、多面体交叉和辅助线体系的训练样本。

这三条流水线突破了当前MLLMs在立体几何空间关系上的集体短板,也为新范式的出现搭建了强硬的数据底座。

打开网易新闻 查看精彩图片

图3:从图像复现到图像多样化到立体几何合成

04

从“看得见”到“看得准”

有了数据,接下来就是训练策略的问题。

CodePercept的独特之处在于,它没有简单地在ICC-1M上做一轮SFT(监督微调)就收工,而是设计了一套两阶段渐进式训练策略,完整覆盖了“学会”到“精通”的全过程。

第一阶段:CodePercept-S1(监督微调)

既然描述和代码本质上都是对同一视觉信息的表达,为什么不把“看图写描述”和“看图写代码”当作两个并行任务来联合优化?

于是,团队在SFT阶段同时优化 Image2Caption 和 Image2Code 两条任务路径,让模型在同一套视觉编码器上建立双通道的感知能力,既学会生成自然语言描述,也学会生成精确的复现代码。

两条任务共享视觉特征提取过程,相互促进、相互补充。

第二阶段:CodePercept-R1(强化学习)

SFT能让模型“学会”写代码,但离“写对”还有距离。

原因在于,代码生成是一个容错率极低的任务。Caption写错一个数,读者大概还能猜出原意。代码写错一个坐标,渲染结果就完全走样了。

为了从“差不多对”跨越到“精准对”,团队引入了GRPO(Group Relative Policy Optimization)强化学习,并设计了三层递增的奖励机制:

  • 格式奖励:语法必须正确,代码至少能跑起来。

  • 内容执行奖励:运行结果必须与目标图像在关键指标上匹配。

  • 图码相似度奖励:重构图像与原始图像之间的感知相似度。

GRPO让模型在不断的自我试错中,逐渐学会“什么样的代码才能精确还原图像”。这种从SFT到RL的递进,本质上就是从“知道怎么干”到“知道怎么干对”的质变。

打开网易新闻 查看精彩图片

图4 CodePercept-S1 模型和CodePercept-R1 模型的训练曲线

05

可验证的感知评估

在传统的评测体系里,感知能力往往是通过最终的解题正确率来反推模型感知好不好。但这种评估方式存在一个根本性漏洞:模型可能答对了题,但根本没看懂图(比如仅凭文本提示就猜出了答案),也可能看懂了图但推错了解题步骤。

简而言之,传统评估无法将“感知”和“推理”真正解耦。

为了解决这个问题,团队推出了STEM2Code-Eval,这是一个包含1000张经过人工精校图像的感知评测基准。

它的评测逻辑简单而苛刻:模型必须生成能够100%还原原始图像的Python代码,然后用代码渲染结果与原图进行像素级精确度比对。

基于STEM2Code-Eval,研究团队得以充分验证代码能不能跑、跑出来像不像。

打开网易新闻 查看精彩图片

图5 STEM2Code-Eval 基准的流程

在这个基准上,团队以Qwen3-VL为基座模型进行了全面测试,结果相当震撼:

在Captioner-Solver评测模式下,CodePercept-8B-S1仅用80亿参数就超越了Qwen2.5-VL-72B(优势达6.2%),甚至逼近了Claude-Opus 4.1-Thinking和GPT5-Thinking这样的闭源前沿模型。

而在纯粹考查感知的图像还原任务(STEM2Code-Eval)上,经过强化学习优化的CodePercept-8B-R1斩获63.56分,全面超越了Seed 1.6-Vision和Qwen3-VL-Plus等超大参数规模的旗舰模型。

打开网易新闻 查看精彩图片

图 6. 在 STEM2Code-Eval 上使用 1k 样本的性能评估

这些数据指向了一个反直觉的结论:参数的堆砌并不能弥补感知能力的缺陷,而代码驱动的感知训练,即使在小参数模型上,也能产生超越量级的感知跃迁。

06

结语

把CodePercept放在CVPR 2026的大背景下看,它的意义远远不止是“又一个新SOTA”。

过去几年,多模态大模型领域有一个默认的“升级路径”,参数越做越大、数据越堆越多、推理链越走越长。这条路径的隐含假设是: 视觉感知已经足够好了,只要能推理,就能解决问题。

但CodePercept用系统的实验证据证明,这个假设可能从一开始就是错的。当模型的“眼神”连一个简单几何图形的坐标都读不准时,再强的推理能力也无从发挥。

更值得关注的是它的方法论转向:用代码作为视觉感知的锚点。这是对“视觉理解”这件事本身的重新定义。

如果视觉理解的最终目标是“能够精确复现所看到的东西”,那么代码比自然语言天然更具优势,因为它自带可验证性。

而Qwen团队的加持,更意味着这一范式有强大的工程底座作为支撑。从Qwen3-VL的视觉编码能力到GRPO在代码生成场景的落地,这套技术栈的成熟度远非一个纯学术原型可比。

也许未来,更多团队会重新审视“感知vs推理”的权重分配,更多研究者会将代码纳入视觉理解的标准工具箱。“给大模型装上基于代码逻辑的火眼金睛”,正在成为一条真实可行的技术路线。

这次去 CVPR 现场,一定不要错过

【认识大牛+赚外快】的机会

需要你做什么:把你最关注的10个大会报告,每页PPT都拍下来

你能获得什么?

认识大牛:你将可以进入CVPR名师博士社群;

钱多活少:提供丰厚奖金,任务量精简;

听会自由:你的行程你做主,顺手就把外快赚。拍下你最感兴趣的10个报告PPT即可。

如果你即将前往CVPR,想边听会边赚钱,还能顺便为AI学术社区做贡献、认识更多大牛,欢迎联系我们:[添加微信号:MS_Yahei]

【限额5位,先到先得】

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。