上海4月24日讯 人工智能领域迎来重大突破——Google DeepMind团队发布全新研究成果"Vision Banana",用"生成即理解"的理念,为计算机视觉领域带来一场范式革命。

什么是"生成即理解"?

简单来说,过去人们认为图像生成模型(比如能画画的AI)和视觉理解模型(比如能识别物体、测量距离的AI)是两条平行线。但DeepMind这次证明,只要让AI学会生成图像,它自然就学会了"看懂"图像。

打开网易新闻 查看精彩图片

这项研究论文《Image Generators are Generalist Vision Learners》于近期发表在学术平台Arxiv上,项目地址已公开。核心思想是:图像生成训练能让模型学到强大且通用的视觉表征,图像生成器就是强大的通用视觉学习器。

技术有何创新?

研究团队基于Nano Banana Pro图像生成模型构建了Vision Banana,未增加专门用于视觉理解的复杂网络结构,也未修改底层架构。其核心方法是:将视觉感知任务的输出全部参数化为RGB图像格式。

打开网易新闻 查看精彩图片

举例来说,深度估计任务中,团队设计了严格可逆的数学映射机制,将物理深度[0, ∞)映射到RGB色彩立方体边缘,支持无损解码;分割任务则通过提示词规定颜色掩码,模型直接生成带颜色掩码的图片,随后提取对应颜色像素还原分割结果。

性能表现亮眼

多项测试数据显示,Vision Banana在多种视觉任务中实现SOTA性能:

语义分割:Cityscapes数据集mIoU达0.699,超越SAM3的0.652

深度估计:六大公开基准平均δ₁精度0.882;与Depth Anything V3可比的四个数据集平均δ₁达0.929,超过Depth Anything V3的0.918

打开网易新闻 查看精彩图片

实测案例:鹿苑寺照片深度估计13.71米,实际测量12.87米,绝对相对误差仅约0.065

更重要的是,模型在验证"生成即理解"的同时,未损伤原有生成能力——GenAI-Bench胜率达53.5%。

谁参与了这项研究?

研究由Google DeepMind主导,何恺明、谢赛宁等多位知名学者参与。其中谢赛宁连续发文强调这一成果,认为"这些生成先验超越了视觉专家模型长期依赖的专有架构与训练范式"。

数据来源值得注意

训练数据全部来自合成渲染引擎,未使用任何真实世界的深度数据,评估基准的真实训练数据均被排除——这意味着模型的泛化能力更强。

打开网易新闻 查看精彩图片

未来挑战

研究团队也指出当前局限:推理开销仍然显著偏高,加速与成本优化是走向广泛部署的必由之路;当前评估专注于单目图像输入,多视图和视频输入是自然的下一步;探索基础视觉模型与LLM的协同融合,以增强跨模态推理也是未来方向。

行业意义

研究团队在论文中表示:"我们可能正见证计算机视觉领域的重大范式转变,我们正在目睹计算机视觉的范式转变,并为基于视觉的AGI铺平道路。"

业界认为,这一成果标志着生成式视觉预训练在构建同时支持生成和理解的基础视觉模型中扮演核心角色,为AI视觉技术打开新的发展路径。

记者手记:当生成模型不仅能"画"还能"懂",我们离真正的"视觉智能"还有多远?Vision Banana或许只是起点。