打开网易新闻 查看精彩图片

新智元报道

编辑:KingHZ

【新智元导读】计算机视觉用了二十年造出的那堆「专用工具」,谷歌DeepMind想一次性全扔掉。

过去十年,计算机视觉领域有一条铁律:看懂图片的模型,和画出图片的模型,是两拨人。

检测用检测网络,分割用分割网络,生成用扩散模型。

每一个新任务,都意味着一套新架构、一条新流水线、一群新论文

整个领域的工程师,本质上在干同一件事——给每种视觉能力定制一把专用钥匙。

谷歌把这些钥匙全扔了。

最近,谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、3D图形学名家Thomas Funkhouser,正式发布了Vision Banana。

打开网易新闻 查看精彩图片

预印本:https://arxiv.org/abs/2604.20329

项目网址:https://vision-banana.github.io/

它向世界宣告:视觉AI终于不再需要那些臃肿的任务头了,理解,本质上只是生成过程中的一次「对齐」。

打开网易新闻 查看精彩图片

一个模型,统治所有视觉任务

传统计算机视觉的逻辑是「分而治之」。

目标检测靠回归框坐标,语义分割靠逐像素分类,图像生成靠噪声去噪。

三条技术线各有各的损失函数、各有各的训练流程、各有各的SOTA排行榜。

Vision Banana的逻辑完全反过来:不管你问什么视觉问题,答案都是一张图。

这背后有一个极其反直觉的发现——强大的生成能力,能反哺理解精度。

打开网易新闻 查看精彩图片

传统观点认为,理解和生成是两种截然不同的能力。

理解是压缩信息,生成是展开信息,方向相反,怎么可能互相帮忙?

极简主义的胜利:手术刀式的「指令微调」

Vision Banana的诞生路径,堪称工程美学的典范。

它不是从零开始烧掉几万张显卡的产物,而是基于基础模型Nano Banana Pro的一次「点睛之笔」。

研究团队采用了一种极度克制、甚至有些反直觉的策略:极低比例的数据混入。

他们只将一小部分具备「可逆格式」的任务数据,像添加催化剂一样,混入Nano Banana Pro自身的庞大训练集中。

这种轻量级的指令微调(Instruction Tuning),既没有洗掉模型原有的「生成本性」,又成功将模型内部涌现出的生成式表征,精准对齐到了真实的物理世界。

打开网易新闻 查看精彩图片

在与母体Nano Banana Pro的正面对决中,Vision Banana在文本生图任务(GenAI-Bench)中获得了53.5%的人类评估胜率,在图像编辑任务(ImgEdit)中获得了47.8%的胜率。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

Vision Banana用数据证明:它并没有因为学会了「看世界」而遗忘如何「造世界」。

它依然是那个顶级的画师,只是现在,它的每一笔线条都具备了物理世界的逻辑。它生成的每一颗像素,既是美学,也是测量。

诸神黄昏与新王登基

Vision Banana的实验数据给出了回答:当模型在海量图像上做生成预训练时,它自发学会了深层语义对齐。

换句话说,一个能画出极其逼真图像的模型,天然就「理解」了图像里的结构、层次和语义关系。

这让人想起一个认知科学里的老命题——人类理解视觉世界的方式,本质上就是「脑补」。

看到一张被遮挡了一半的椅子,大脑会自动补全另一半。

打开网易新闻 查看精彩图片

这个补全过程,就是生成。Vision Banana把这个直觉工程化了。

在多项基准测试中,它的表现直接碾过了那些为单一任务精心调教了多年的专用模型,尤其在极端遮挡、复杂场景理解等任务上,优势最明显。

打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片
打开网易新闻 查看精彩图片

原因不难理解:专用模型只学会了「看」,Vision Banana学会了「想象」。能想象的模型,处理残缺信息的能力天然更强。

检测物体?生成一张标注了框的图。语义分割?生成一张涂了颜色的图。场景描述?还是生成图。

Vision Banana宣告了AI视觉领域的「哥白尼革命」:它彻底抛弃了过去20年的「识别」范式,转而用「想象」来征服现实。

从此,理解不再是目的,它只是生成过程中的一个「副产品」。

熟悉深度学习历史的人会立刻反应过来,

这一幕似曾相识。

2017年,Transformer论文的标题叫「Attention Is All You Need」,把NLP里七八种专用架构一锅端了。

Vision Banana干的事情本质上一样:Generation Is All You Need。

旧范式的裂缝,早就在了

很多人第一反应是:又一个「大一统」的故事,AI领域这类叙事听太多了,真正落地的有几个?

这种怀疑完全合理。过去几年,「统一模型」的概念被滥用到了通货膨胀的程度。

但这次的区别在于,Vision Banana不是在讲概念,它是在跑分上直接证明了:统一不意味着妥协。

传统上,统一模型的代价是每个子任务都比不过专用模型。所谓「万能工具不如专用工具」。

Vision Banana打破了这个诅咒——它在生成和理解两个方向上同时达到了SOTA。

打开网易新闻 查看精彩图片

在视觉生成与理解任务上,指令微调后的Vision Banana模型实现SOTA

这意味着一件事:不是统一模型做不好,是之前的统一方式选错了接口。

过去的尝试大多是在模型内部硬塞多个任务头,本质上还是「多个专用模块共享一个骨干网络」。Vision Banana的做法更彻底——它连任务头都不要了,所有输出都是像素。

这个设计选择的优雅之处在于:像素是视觉领域最底层的通用语言。不管你要检测、分割、生成还是编辑,最终呈现在屏幕上的都是像素。Vision Banana把输出统一到了最底层,反而获得了最大的灵活性。

视觉AI的Transformer时刻

把时间线拉长一点就会发现,Vision Banana的出现不是孤立事件。

2017年,NLP领域经历了从「专用模型时代」到「通用模型时代」的范式切换。

Transformer一统江湖之后,整个领域的研究方式、工程实践、商业逻辑全部重写。

计算机视觉到现在还没完成这个切换。

ViT出来之后,Transformer进了视觉领域,但任务层面的统一一直没有实现。检测、分割、生成,依然是三条独立的技术线。

Vision Banana可能是补上这最后一块拼图的那个模型。

当所有视觉任务都变成「生成像素」,一个直接的后果是:未来的视觉AI不再是「看图识字」的工具,而是具备「视觉想象力」的系统。

它通过在生成空间内推理,来应对现实世界中无穷无尽的变体。

它背后的野心则是构建一个统一的视觉世界模型(World Model)。

Vision Banana证明了一个深邃的哲学命题:视觉推理本质上就是一种受约束的生成。

这种能力直接指明了具身智能(Robotics)的未来:如果一个机器人拥有Vision Banana的灵魂,它不再需要复杂的路径规划算法。

它只需要在脑中「生成」一段它成功取到杯子的像素序列,然后按照这段序列去对齐物理现实。

最好的视觉模型,不应该是一个完美的分类器,而应该是一个拥有完美想象力的观察者。

这事儿放进更大的坐标系里看,谷歌在下一盘很大的棋。

Gemini统一了文本和多模态理解,Vision Banana统一了视觉理解和生成。两者如果接通,一个真正意义上的「世界模型」的雏形就出现了——既能理解世界,又能想象世界。

十年前,计算机视觉的工程师们为每个新任务焊一条新流水线。十年后,一个模型用同一个动作回答所有视觉问题。

从专用到通用,从理解到想象,这条路NLP用了七年走完。视觉AI走到了同一个路口。

这一次,钥匙只有一把。

参考资料:

https://vision-banana.github.io/%20

https://x.com/arankomatsuzaki/status/2047139493543846251?s=20