如果你觉得多模态大模型已经“什么都会了”,Gemini 、ChatGPT 智商已经超越人类了,那这篇论文可能会给你泼一盆冷水。

日前,一篇来自arXiv 题为《BabyVision:超越语言的视觉推理》的论文给出了一个惊人的结论:如果完全不依赖语言,只考最基础的视觉能力,今天最强多模态大模型的表现,还不如三岁小孩。

打开网易新闻 查看精彩图片

该篇论文作者为 梁晨等来自 UniPat AI、北京大学、清华大学、阿里巴巴、普林斯顿等的 29 名研究员。

他们给这个研究方向设计了一个新基准,名字叫 BabyVision。

顾名可思义,考的不是博士级的复杂推理,而是人类在学会说话之前就已经具备的视觉能力。

过去一年,多模态模型在各种榜单上进步飞快,做数学题、看图写代码、理解专业图表,甚至在一些大学、博士水平的测试中超过普通人。

但作者指出,这些测试几乎都有一个共同点,高度依赖语言、知识和文本推理。

于是他们反过来做了一件事,把语言和知识全部剥离,只剩下视觉本身。

BabyVision 一共只有 388 道题,规模不大,但设计得非常克制。

问题文本被压缩到极短,平均只有二十多字,不需要任何背景知识。

题目分布在四类最基础的视觉能力上:细微差异的辨别、视觉路径追踪、空间关系判断,以及图形和模式识别。

打开网易新闻 查看精彩图片

换句话说,就是“哪个更大”、“线走到哪里”、“这个形状转一下会变成什么”、“规律下一格是什么”等,这一类问题。

为了避免“文字投机”,作者在数据构建阶段专门过滤了所有可能通过语言猜答案的样本,甚至还请人反复验证:如果遮住题目文字,只看图,人类是否仍然可以完成判断。

作为对照,他们不仅测了模型,还测了人。

测试对象包括 3 岁、6 岁、10 岁、12 岁的儿童,以及成年人。

结果是,人类的表现,几乎是压倒性的。

数据显示:成年人在 BabyVision 上的平均正确率是 94.1%;6 岁儿童已经可以稳定超过 70%。

而当前表现最好的多模态模型,得分只有 49.7%。

打开网易新闻 查看精彩图片

而且,这还不是“平均模型”,而是作者测试中最强的那一个Gemini3-Pro-Preview。

换句话说,在这些不需要语言、只需要“看懂”的任务上,最先进的多模态大模型,整体水平还低于学龄前儿童。

更残酷的是,模型的弱点并不是集中在某一类题型上,而是系统性的。

论文展示了大量错误案例。

比如分不清细微形状差别、无法连续追踪一条曲线,比如在二维图像中构建错误的三维关系,或者完全误判一个简单的视觉规律。

打开网易新闻 查看精彩图片

分析原因,作者认为,问题并不只是模型“没训练够”,而是当前多模态架构本身存在结构性瓶颈。

他们认为,大多数多模态模型的工作方式,本质上是“先看图,再把视觉信息压缩成语言 token,然后在语言空间里思考”。

这个过程在面对知识型问题时很高效,但对基础视觉任务是致命的。

因为图片细节在压缩过程中会丢失,连续结构会被打断,空间关系会被离散化,最终导致模型“会说,但看不清”。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

为了验证是不是“语言这一步”限制了能力,论文还提出了一个扩展实验,叫 BabyVision-Gen。

在这个设置中,模型不需要用文字回答,而是直接在图像上生成答案,比如画出正确路径、圈出不同区域。

结果显示,在少数任务上,生成式视觉输出确实能略微改善表现,但整体差距依然巨大。

这也让论文的结论显得更加清晰,即当前多模态模型在“像人一样看”这件事上,远没有达到人类水平,哪怕人类还没学会说话。

要知道,人类与世界的沟通,先有视觉后有语言,比如婴儿几个月大就能辨别形状、追踪物体。

但大模型在最基础的视觉感知上近乎的“失明”表现说明,它们并非真正“看见”了图像, 而是在用语言知识“猜测”答案。

抱着治病救人的态度,研究团队还尝试基于可验证奖励的强化学习(RLVR) , 对Qwen3-VL-8B-Thinking 进行训练,来为大模型进行补救。

结果表明,准确率从 13.1% 提升 4.8 个百分点,到了 17.9%,但距离人类水平仍然遥不可及。

打开网易新闻 查看精彩图片

这表明,视觉能力的根本缺陷很难通过后训练弥补,而可能需要架构层面的创新。

但这篇论文的价值,不在于否定多模态模型的进步,而是对多模态的发展路径提出了条新的思考路径。

论文明确指出,想要缩小人与模型之间的差距,靠堆数据、堆语言推理很可能不够,必须重新思考视觉表征、连续空间建模,以及视觉与推理之间的连接方式。

论文地址为:

https://arxiv.org/pdf/2601.06521v1