CVPR 2026 | 生成模型与视觉编码器真的共享潜空间吗，UNE给出新的统一解释|分类器|微笑|生成模型|视觉编码器|高斯

生成模型（Generative Models）和视觉编码器（Vision Encoders）通常被看作两条相对独立的发展路线。前者从高斯噪声出发生成图像，后者则把图像映射为语义表示，两类模型的训练目标、优化方式和下游用途都不相同。本文介绍一篇来自以色列理工学院研究团队的最新工作（发表在 CVPR 2026上）：通用正态嵌入（Universal Normal Embedding, UNE）。

该工作指出，这两类模型可能会共享一个更底层的几何结构，即潜空间的高斯特性。UNE假设编码器嵌入和扩散模型的 DDIM 噪声，都可以视作同一个潜在高斯源的线性噪声投影。围绕这一假设，作者构建了 NoiseZoo 数据集，并在 CelebA 上系统分析了编码器表示与扩散噪声的统计性质、线性可分性和可编辑性。实验表明，扩散模型中的初始噪声并非纯粹的随机变量，而是可以和编码器表示共享显著的语义结构，这为统一视觉理解与视觉生成提供了新的几何视角。

论文题目： The Universal Normal Embedding 文章链接： https://arxiv.org/abs/2603.21786 项目主页： https://rbetser.github.io/UNE/

一、研究背景

在计算机视觉领域，生成模型与表征学习长期沿着不同方向演进。扩散模型、流模型和变分自编码器更关注如何从潜变量生成出高质量图像，自监督编码器和多模态编码器则更关注如何得到可迁移、可线性探测的语义表示。虽然这两类模型都依赖潜空间，但学术界通常把它们理解为两种不同的数学对象，具体分为以下几个方面：

（1）生成模型中的噪声通常被视为采样起点。对于扩散模型而言，初始噪声的主要作用是作为生成过程的随机源。

（2）编码器表示则表现出较强的语义线性。诸如 CLIP[1]、DINO 等模型的嵌入空间已经被大量工作证明具有线性可分性，许多高层语义属性都可以用简单的线性探针恢复出来。

（3）越来越多的实验表明，不同模型的潜空间可能存在可拼接性。无论是生成模型之间，还是不同编码器之间，研究者都观察到某些简单的线性映射足以在它们之间建立对齐关系，这暗示它们可能共享某种更基础的潜在几何。

（4）如果生成噪声和编码器嵌入真的来自同一底层结构，那么视觉理解与视觉生成之间的关系就不只是同属视觉模型，而是可以在同一潜在空间中被统一解释。

基于这些观察，本文提出了 UNE 假设。作者认为，存在一个理想的高斯潜空间，自然图像通过信息保持映射与该空间相连，而不同模型所学习到的潜表示，只是这个共享空间在不同架构和训练目标下形成的观测视图。如果这一假设成立，那么扩散噪声中的语义可分性、线性编辑能力，以及编码器与生成模型之间的几何对齐，就都可以放到同一个框架中进行解释。

二、本文方法

本文方法的核心目标，是给生成模型潜空间与编码器表示建立一个统一的几何解释。作者不是去设计一个新的生成器或编码器，而是提出一个潜在假设，并通过数学建模和实验验证来检验这一假设是否合理。整体方法可以分为三个部分，分别是 UNE 假设本身、语义方向的线性分析与编辑机制，以及跨模型共享子空间的恢复。

2.1 通用正态嵌入

作者首先定义了一个理想潜空间，其潜变量服从标准正态分布：

其中是该理想空间的维度。UNE 假设认为，自然图像数据域与这一潜在高斯空间之间存在信息映射关系，并且图像中的语义属性在这个空间中具有较简单的几何形式，例如线性可分。

上图展示了 UNE 空间的动机，其表明，不同模型虽然训练目标不同，但它们最终学到的潜表示可能都只是同一个高斯潜空间的不同视图。沿着这一思路，论文进一步提出诱导正态嵌入（Induced Normal Embedding, INE）的概念，用来描述某个具体模型实际产生的潜表示。对于模型而言，其潜特征可以被写成底层潜变量的噪声线性投影：

其中为线性映射矩阵，为噪声项。这个表达式表明，不同模型虽然输出不同维度、不同形式的表示，但这些表示背后可能仍然共享同一组潜在语义方向。UNE 对应一个理想的共享高斯源，而 INE 对应每个模型能观测到的具体投影。

上图进一步展示了这种几何关系。在作者的设定里，语义属性在底层空间中沿某些线性方向展开，不同模型只是在投影之后保留了这些方向的不同部分，因此它们依然可能拥有一致的语义结构。

2.2 线性语义方向与属性编辑

如果潜空间近似高斯，并且语义属性与潜变量联合服从高斯分布，那么属性在给定潜特征时的条件期望可以写成线性形式：

其中表示某个语义属性，和为对应参数。这个结果意味着，在 UNE 及其诱导视图 INE 中，很多语义属性都可以用一条线性方向来描述。于是，使用简单的线性分类器或线性回归器，就可以从潜空间中提取年龄、微笑、性别等属性。基于这一点，本文将属性编辑写成潜空间中的线性位移：

其中控制编辑强度，只要找到某个语义方向，模型就可以沿着该方向移动，从而在不修改模型参数的情况下完成属性编辑。不过，现实中的属性方向往往会受到数据偏差影响。例如“胡子”方向可能同时带来年龄、脸型等变化。为缓解这一问题，作者加入了正交化策略。如果希望改变属性而不影响属性，可以把投影到的正交补空间中：

这一操作的作用，是从一个语义方向中去掉与另一语义方向重合的分量，从而得到更干净的编辑方向。

2.3 共享子空间恢复与多视图融合

如果不同模型的潜在表示真的是同一个底层高斯空间的投影，那么从多个模型的观测中恢复共享子空间就非常简单。为此，作者考虑了个模型在同一组图像上得到的潜表示矩阵，并希望找到一个共享表示，使得每个模型都能通过线性变换解释这个共享结构：

这一目标可以通过最小化下式来实现：

同时施加下面的约束条件：

来保证共享表示具备标准化性质。基于这一过程，UNE可以恢复不同模型都符合的低维语义核心，并检验这些共享维度是否真的保留了主要语义信息。

三、实验结果

本文的实验主要验证了四个核心问题：（1）不同潜空间是否真的近似高斯，（2）扩散噪声中是否存在和编码器一致的线性语义，（3）线性方向是否足以支持可控编辑，以及（4）不同模型之间是否存在低维共享核心。作者围绕这四个问题构建了 NoiseZoo 数据集，并在 CelebA 验证集上进行了系统分析。

3.1 NoiseZoo 与潜空间高斯性检验

NoiseZoo 主要基于 CelebA 数据集进行构建。对于每张图像，作者提取了扩散模型 DDIM 得到的噪声表示，以及多个视觉编码器的嵌入表示。随后使用 Anderson-Darling、D'Agostino-Pearson 和 Shapiro-Wilk 三种统计检验，对这些潜空间做了 5000 次随机投影测试，以评估它们是否接近高斯分布。

上表结果显示，扩散模型潜空间的正态性接受率非常接近理论预期，像 SD 1.5、SD 2.1 这样的模型在多个检验下都接近 95%。编码器的接受率虽然略低，但 CLIP、DINOv3 等模型大多也保持在 80% 以上，明显高于非高斯对照分布。这说明无论是编码器表示还是生成噪声，都表现出显著的高斯化趋势，在统计层面支持了 UNE 假设。

3.2 线性分类结果与跨空间对齐

在确认潜空间具有高斯趋势后，作者进一步检验了在这些空间中是否存在一致的线性语义。具体做法是在各模型潜空间上训练 40 个 CelebA 属性的线性分类器，并比较不同模型在这些属性上的分类表现。

上图中的雷达结果展示了这一实验的总体趋势。可以看到，扩散模型的 DDIM 噪声虽然通常被视作随机变量，但在年龄、发色、是否微笑等属性上的线性分类效果，与 CLIP、DINO 等语义编码器具有高度一致性。

上表进一步比较了跨空间映射后的性能变化，结果显示，把生成噪声通过线性映射转换到编码器嵌入空间后，属性分类精度几乎没有明显损失，下降幅度小于 0.3%。这表明两类空间之间并不只是都能分类，而是共享了一套近似一致的几何结构。

3.3 在线性方向上的可控编辑

如果扩散噪声中的语义方向不仅能被分类器识别，而且能直接用于生成控制，那么 UNE 假设的意义就不只停留在解释层面。为此，作者在 Stable Diffusion 1.5 的噪声空间中直接施加线性位移，测试是否可以在不修改模型结构和权重的前提下完成属性编辑。

上图展示了在多种属性方向上的编辑效果。实验表明，沿着对应语义方向移动后，模型能够较稳定地改变年龄、性别表达、微笑等属性，而整体图像质量和身份连续性基本保持不变。这验证了潜空间中的线性语义方向不只是可探测的，也具有直接的生成控制能力。

3.4 共享低维核心空间分析

最后，作者使用 GCCA[2] 从多个模型的潜表示中恢复共享子空间，并分析不同维度下保留下来的语义信息量。

上图展示了共享空间维度变化对分类性能的影响。实验表明，只需要 16 维左右的共享核心，就能够保留多个模型中大部分可线性分类的语义信息，其效果与单模型做 PCA 压缩后的结果相近。这表明，不同模型虽然潜空间维度和训练目标差异很大，但它们对图像语义的共同描述，很可能集中在一个相对低维的高斯子空间中。

四、总结

本文提出的通用正态嵌入假设（UNE），为生成模型与视觉编码器之间的关系提供了一个统一解释。围绕这一假设，作者进一步引入诱导正态嵌入（INE），用来描述具体模型对共享潜空间的不同观测形式。通过 NoiseZoo 数据集、正态性检验、线性分类、属性编辑以及 GCCA 共享子空间恢复等实验，本文系统展示了扩散噪声和编码器表示之间的统计一致性与语义一致性。整体来看，这项工作说明生成模型中的初始噪声并不是无结构的随机起点，而是一种与编码器表示高度相关的语义特征，这为统一理解视觉生成与视觉表征提供了新的潜空间几何框架。

参考

[1] Radford A, Kim J W, Hallacy C, et al. Learning Transferable Visual Models From Natural Language Supervision. In: ICML, 2021.

[2] Jon R Kettenring. Canonical analysis of several sets of variables. Biometrika, 58(3):433–451, 1971.

Illustration From IconScout By IconScout Store

报名截止至 5 月 19 日晚 8 点，席位有限~

-The End-

扫码观看！

本周上新！

“AI技术流”原创投稿计划

TechBeat是由将门创投建立的AI学习社区（www.techbeat.net）。社区上线700+期talk视频，3000+篇技术干货文章，方向覆盖CV/NLP/ML/Robotis等；每月定期举办顶会及其他线上交流活动，不定期举办技术人线下聚会交流活动。我们正在努力成为AI人才喜爱的高质量、知识型交流平台，希望为AI人才打造更专业的服务和体验，加速并陪伴其成长。

投稿内容

// 最新技术解读/系统性知识分享 //

// 前沿资讯解说/心得经历讲述 //

投稿须知

稿件需要为原创文章，并标明作者信息。

我们会选择部分在深度技术解析及科研心得方向，对用户启发更大的文章，做原创性内容奖励

投稿方式

发送邮件到

yimingzhang@thejiangmen.com

或添加工作人员微信（aceyiming）投稿，沟通投稿详情

关于我“门”

将门是一家以专注于数智核心科技领域的新型创投机构，也是北京市标杆型孵化器。公司致力于通过连接技术与商业，发掘和培育具有全球影响力的科技创新企业，推动企业创新发展与产业升级。