视频深度估计新SOTA来了，163倍数据效率解锁生成式先验|仿射|先验|新论文|时序

视频扩散模型（拿来做深度估计）简直是降维打击（overqualified）！

近日，一项刚在 arXiv 亮相的视频深度估计新工作，在推特（X）上收获了开源社区的不少关注。知名 AI 资讯博主AK (@_akhaliq)进行了跟进转发；也有同行博主探讨了视频扩散模型在深度估计任务中的强大潜力，并留意到了该工作在 ScanNet 上 5.5 AbsRel 的准确度、极高的数据效率以及对超长视频时序闪烁的改善。

面对社区的热情反馈，研究团队保持了学者的严谨，并表示：这其实是对预训练生成式先验一次顺理成章的探索。为了方便大家亲自验证，不仅推理管线，团队已将整套训练代码毫无保留地完全开源，希望能为社区提供一个扎实、可复现的基线。

这项工作正是由香港科技大学（广州）陈颖聪教授领衔的 EnVision Research 实验室，联合加州大学圣地亚哥分校、普林斯顿大学等顶尖机构，正式推出了全新的视频深度估计框架——DVD (Deterministic Video Depth Estimation with Generative Priors)。论文共同第一作者为来自港科大（广州）的张鸿飞、陈浩东、廖晨非与何晶。

在3D场景理解与自动驾驶等应用中，视频深度估计一直是不可或缺的核心基石。然而，如何在动态视频中兼顾极致的几何细节与长时序的稳定性，始终是困扰整个计算机视觉界的难题。熟悉深度估计的读者可能知道，EnVision Research 此前在图像深度估计领域推出的代表作Lotus备受社区瞩目（目前在 GitHub 上已揽获近 800 Stars），而此次发布的 DVD 模型，正是将这种确定性适配在视频深度估计领域的强势拓展与跨越式升维。

DVD 是首个将预训练视频扩散模型（Video Diffusion Models）确定性地适配为“单次前向回归器”（Single-pass depth regressors）的创新框架。它彻底摆脱了传统生成式模型由于随机采样带来的几何幻觉，同时避免了判别式模型为了消除语义歧义而对海量标注数据的贪婪渴求。

实验证明，DVD 仅使用了 36.7 万帧的特定任务训练数据——对比 Video Depth Anything (VDA) 高达 6000 万帧的数据量，数据效率提升了惊人的 163 倍！进一步地说，DVD 成功解锁了视频基础模型中蕴含的深厚几何先验，在零样本（Zero-shot）性能上全面超越了现有 SOTA。

论文链接：https://arxiv.org/abs/2603.12250
项目主页：https://dvd-project.github.io/
代码链接：https://github.com/EnVision-Research/DVD

1 背景介绍

在 DVD 诞生之前，主流的视频深度估计方法主要陷入了两种范式的固有缺陷中，形成了一个基础性的“权衡悖论”（Trade-off）：

生成式模型（Generative Models，如 DepthCrafter）：这类方法利用预训练的视频基础模型来捕获丰富的时空先验，零样本泛化能力强。但是，由于它们依赖随机采样机制，会引入时序上的不确定性。这种生成性质往往优先考虑“视觉合理性”而非“几何准确性”，从而导致严重的几何幻觉（Geometric Hallucinations），无法在时间上保持精确且全局一致的几何结构。
判别式模型（Discriminative Models，如 Video Depth Anything, VDA）：这类基于 ViT 的模型具有极高的推理效率和确定性输出。然而，由于它们完全依赖密集的注释来学习几何，常常会陷入语义歧义（Semantic Ambiguity），例如将运动模糊或无纹理区域误判为结构边界。为了克服这种歧义，它们只能依赖极其庞大且多样化的下游标注数据进行暴力堆砌。

研究团队敏锐地提出一个核心问题：能否设计一种视频深度估计框架，既能有效平衡判别式模型的结构稳定性与生成式模型的丰富时空先验，又能保持高效和可扩展性？

这就是 DVD 提出的初衷。

2 DVD 方法

为了打破上述僵局，DVD 摒弃了传统的随机生成范式，开创性地实现了预训练视频扩散模型的确定性适配，直接学习从 RGB 潜变量到深度潜变量的映射。

然而，将确定性适配从静态图像扩展到动态视频面临着独特的挑战：朴素的回归不仅容易导致模糊，还会遭受结构不稳定性等问题。为此，DVD 提出了三大核心设计：

2.1 将时间步作为结构锚点 (Timestep as a Structural Anchor)

在生成式预训练中，时间步 $t$ 参数化了信噪比，指导模型关注全局结构或局部细节。DVD 创造性地将时间步从一个噪声指示器重塑为一个结构锚点（Structural Anchor）。通过将其固定在一个最佳状态（如 $\tau=0.5$），模型能够完美平衡低频的全局稳定性与高频的空间细节，避免了几何过度平滑。

2.2 潜在流形校正 (Latent Manifold Rectification, LMR)

当我们使用逐点回归目标训练模型时，极易引发“均值塌陷（Mean Collapse）”，导致模型在面对模糊或遮挡区域时洗去高频结构细节。在时空设置下，这种退化会累积成严重的边界侵蚀和运动闪烁。

为此，DVD 引入了 LMR——一种无额外参数的监督策略。LMR 强制对齐预测潜变量与目标潜变量的空间梯度（Spatial Gradient）和时序光流（Temporal Flow）。这一机制成功恢复了被回归抹平的锐利边界和连贯的运动动态。

2.3 全局仿射一致性 (Global Affine Coherence)

处理长视频时，显存限制要求必须采用滑动窗口推理，这往往会导致生成式模型出现随机尺度漂移。

研究团队在 DVD 中发现了一个固有的特性：VAE 解码主要引起全局仿射变化，而非局部空间失真。因此，窗口间的差异可以很好地用线性尺度偏移变换来近似。基于这种“全局仿射一致性”，DVD 设计了一个闭式最小二乘求解器。只需通过重叠区域计算全局缩放 $s$ 和平移 $t$，即可无缝对齐相邻窗口，完全无需复杂的潜在拼接或时间对齐模块。

3 实验结果

DVD 在多个真实世界基准测试中进行了广泛的零样本评估，其实验结果令人振奋：

3.1 登顶的新 SOTA 几何保真度与时序连贯性

在 ScanNet 和 KITTI 等标准数据集上，DVD 一致优于最先进的生成式（如 DepthCrafter）和判别式（如 VDA）基线模型，取得了最低的绝对相对误差（AbsRel）。并且，LMR 机制显著提升了精细边界的准确性，例如将 ScanNet 的 B-F1 分数提升至 0.259。

3.2 令人信服的数据与推理效率

DVD 的一大核心优势在于用极少的数据解锁高保真深度。仅使用 36.7 万帧训练的 DVD，其性能就超越了使用 6000 万帧数据的 VDA（数据量不到其1/160）。同时，由于避开了迭代采样的计算瓶颈，DVD 保持了与 VDA 相当的推理速度，并提供了更高的准确率。

3.3 强大的长视频扩展性

面对包含数千帧的复杂长视频，生成式方法受到严重的尺度漂移困扰，判别式基线持续表现出语义歧义。而 DVD 凭借无参数的仿射对齐机制，确保了严格的结构持久性和高保真度，在长视频推理中展现出了卓越的稳定性。

4 结论

DVD (Deterministic Video Depth Estimation) 框架的提出，是首个确定性适配预训练视频扩散先验以用于单次深度估计的框架。

通过“时间步驱动的结构锚点”、“对抗时空均值塌陷的潜在流形校正 (LMR)”以及“用于长视频仿射对齐的全局仿射一致性”三大核心设计，DVD 成功解决了“歧义与幻觉”的两难困境。更重要的是，它证明了：我们无需再盲目堆砌上千万级别的特定任务标注数据，仅需通过巧妙的策略，就能以163 倍的极高数据效率解锁基础模型中令人惊叹的世界几何先验。

这项工作为动态 3D 场景理解和未来的感知技术，确立了一条高度可扩展且数据高效的全新范式。

论文、代码及模型权重均已全部开源，欢迎广大研究人员前往项目主页体验！