谷歌这把「香蕉」太狠了！何恺明等引爆视觉Transformer时刻

新智元

2026-04-24 14:33 ·北京 ·《新智元》官方网易号

新智元报道

编辑：KingHZ

【新智元导读】计算机视觉用了二十年造出的那堆「专用工具」，谷歌DeepMind想一次性全扔掉。

过去十年，计算机视觉领域有一条铁律：看懂图片的模型，和画出图片的模型，是两拨人。

检测用检测网络，分割用分割网络，生成用扩散模型。

每一个新任务，都意味着一套新架构、一条新流水线、一群新论文。

整个领域的工程师，本质上在干同一件事——给每种视觉能力定制一把专用钥匙。

谷歌把这些钥匙全扔了。

最近，谷歌联合ResNet作者何恺明、谢赛宁、NeRF先驱Jonathan T. Barron、3D图形学名家Thomas Funkhouser，正式发布了Vision Banana。

预印本：https://arxiv.org/abs/2604.20329

项目网址：https://vision-banana.github.io/

它向世界宣告：视觉AI终于不再需要那些臃肿的任务头了，理解，本质上只是生成过程中的一次「对齐」。

一个模型，统治所有视觉任务

传统计算机视觉的逻辑是「分而治之」。

目标检测靠回归框坐标，语义分割靠逐像素分类，图像生成靠噪声去噪。

三条技术线各有各的损失函数、各有各的训练流程、各有各的SOTA排行榜。

Vision Banana的逻辑完全反过来：不管你问什么视觉问题，答案都是一张图。

这背后有一个极其反直觉的发现——强大的生成能力，能反哺理解精度。

传统观点认为，理解和生成是两种截然不同的能力。

理解是压缩信息，生成是展开信息，方向相反，怎么可能互相帮忙？

极简主义的胜利：手术刀式的「指令微调」

Vision Banana的诞生路径，堪称工程美学的典范。

它不是从零开始烧掉几万张显卡的产物，而是基于基础模型Nano Banana Pro的一次「点睛之笔」。

研究团队采用了一种极度克制、甚至有些反直觉的策略：极低比例的数据混入。

他们只将一小部分具备「可逆格式」的任务数据，像添加催化剂一样，混入Nano Banana Pro自身的庞大训练集中。

这种轻量级的指令微调（Instruction Tuning），既没有洗掉模型原有的「生成本性」，又成功将模型内部涌现出的生成式表征，精准对齐到了真实的物理世界。

在与母体Nano Banana Pro的正面对决中，Vision Banana在文本生图任务（GenAI-Bench）中获得了53.5%的人类评估胜率，在图像编辑任务（ImgEdit）中获得了47.8%的胜率。

Vision Banana用数据证明：它并没有因为学会了「看世界」而遗忘如何「造世界」。

它依然是那个顶级的画师，只是现在，它的每一笔线条都具备了物理世界的逻辑。它生成的每一颗像素，既是美学，也是测量。

诸神黄昏与新王登基

Vision Banana的实验数据给出了回答：当模型在海量图像上做生成预训练时，它自发学会了深层语义对齐。

换句话说，一个能画出极其逼真图像的模型，天然就「理解」了图像里的结构、层次和语义关系。

这让人想起一个认知科学里的老命题——人类理解视觉世界的方式，本质上就是「脑补」。

看到一张被遮挡了一半的椅子，大脑会自动补全另一半。

这个补全过程，就是生成。Vision Banana把这个直觉工程化了。

在多项基准测试中，它的表现直接碾过了那些为单一任务精心调教了多年的专用模型，尤其在极端遮挡、复杂场景理解等任务上，优势最明显。

原因不难理解：专用模型只学会了「看」，Vision Banana学会了「想象」。能想象的模型，处理残缺信息的能力天然更强。

检测物体？生成一张标注了框的图。语义分割？生成一张涂了颜色的图。场景描述？还是生成图。

Vision Banana宣告了AI视觉领域的「哥白尼革命」：它彻底抛弃了过去20年的「识别」范式，转而用「想象」来征服现实。

从此，理解不再是目的，它只是生成过程中的一个「副产品」。

熟悉深度学习历史的人会立刻反应过来，

这一幕似曾相识。

2017年，Transformer论文的标题叫「Attention Is All You Need」，把NLP里七八种专用架构一锅端了。

Vision Banana干的事情本质上一样：Generation Is All You Need。

旧范式的裂缝，早就在了

很多人第一反应是：又一个「大一统」的故事，AI领域这类叙事听太多了，真正落地的有几个？

这种怀疑完全合理。过去几年，「统一模型」的概念被滥用到了通货膨胀的程度。

但这次的区别在于，Vision Banana不是在讲概念，它是在跑分上直接证明了：统一不意味着妥协。

传统上，统一模型的代价是每个子任务都比不过专用模型。所谓「万能工具不如专用工具」。

Vision Banana打破了这个诅咒——它在生成和理解两个方向上同时达到了SOTA。

在视觉生成与理解任务上，指令微调后的Vision Banana模型实现SOTA

这意味着一件事：不是统一模型做不好，是之前的统一方式选错了接口。

过去的尝试大多是在模型内部硬塞多个任务头，本质上还是「多个专用模块共享一个骨干网络」。Vision Banana的做法更彻底——它连任务头都不要了，所有输出都是像素。

这个设计选择的优雅之处在于：像素是视觉领域最底层的通用语言。不管你要检测、分割、生成还是编辑，最终呈现在屏幕上的都是像素。Vision Banana把输出统一到了最底层，反而获得了最大的灵活性。

视觉AI的Transformer时刻

把时间线拉长一点就会发现，Vision Banana的出现不是孤立事件。

2017年，NLP领域经历了从「专用模型时代」到「通用模型时代」的范式切换。

Transformer一统江湖之后，整个领域的研究方式、工程实践、商业逻辑全部重写。

计算机视觉到现在还没完成这个切换。

ViT出来之后，Transformer进了视觉领域，但任务层面的统一一直没有实现。检测、分割、生成，依然是三条独立的技术线。

Vision Banana可能是补上这最后一块拼图的那个模型。

当所有视觉任务都变成「生成像素」，一个直接的后果是：未来的视觉AI不再是「看图识字」的工具，而是具备「视觉想象力」的系统。

它通过在生成空间内推理，来应对现实世界中无穷无尽的变体。

它背后的野心则是构建一个统一的视觉世界模型（World Model）。

Vision Banana证明了一个深邃的哲学命题：视觉推理本质上就是一种受约束的生成。

这种能力直接指明了具身智能（Robotics）的未来：如果一个机器人拥有Vision Banana的灵魂，它不再需要复杂的路径规划算法。

它只需要在脑中「生成」一段它成功取到杯子的像素序列，然后按照这段序列去对齐物理现实。

最好的视觉模型，不应该是一个完美的分类器，而应该是一个拥有完美想象力的观察者。

这事儿放进更大的坐标系里看，谷歌在下一盘很大的棋。

Gemini统一了文本和多模态理解，Vision Banana统一了视觉理解和生成。两者如果接通，一个真正意义上的「世界模型」的雏形就出现了——既能理解世界，又能想象世界。

十年前，计算机视觉的工程师们为每个新任务焊一条新流水线。十年后，一个模型用同一个动作回答所有视觉问题。

从专用到通用，从理解到想象，这条路NLP用了七年走完。视觉AI走到了同一个路口。

这一次，钥匙只有一把。

参考资料：

https://vision-banana.github.io/%20

https://x.com/arankomatsuzaki/status/2047139493543846251?s=20

打开网易新闻体验更佳

热搜

热门跟贴

打开APP发贴