近年来,随着 VR 头戴设备、智能眼镜、3D 影院的发展,人们对于 3D 立体视频内容的需求不断增加。3D 电影带来的沉浸式体验着实令人着迷,但因其制作过程需要专业的相机设备、复杂耗时的专家后处理,3D 内容的制作让普通玩家望而却步:
2010 年,卡梅隆导演为了实现经典著作《泰坦尼克号》的 3D 版本重制,制作团队投入了高达 1800 万美元,动用了 300 名专业工程师,耗时整整 60 周才完成[1]。
如此高昂的成本和复杂的人力投入,一直是 3D 内容生产的最大阻碍。尽管近年来自动化的“单目转双目”(Monocular-to-Stereo)技术有所发展,但效果往往不尽如人意,转换的结果往往要么产生错误的视差,要么无法处理复杂的镜面场景,且速度极慢:现有的研究工作转换一段 5 秒的视频,耗时15 分钟到 70 分钟不等。
针对这一难题,快手可灵团队与香港科技大学(广州)陈颖聪教授团队(共同一作博士生沈贵宝、红鸟硕士生杜壹华、博士生葛汶杭)联合提出了一种全新的解决方案 ——StereoPilot。这是一种基于生成式先验的统一高效立体视频转换模型,能够在极短的时间内(11 秒),将一段 5 秒的普通 2D 视频转换为高质量的 3D 立体视频,在所有定量指标上均超越了当前 SOTA 方法。
- 论文链接:https://arxiv.org/abs/2512.16915
- 项目主页:https://hit-perfect.github.io/StereoPilot/
- 代码链接:https://github.com/KlingTeam/StereoPilot/
当解锁了 3D 视频的制作部分,接下来,你只需要购买一副大约价格 10 元人民币的红蓝眼镜,即可跟随 StereoPliot 一起,开启沉浸式视觉体验:
论文的作者,对单目转双目视频,从以往的研究方法到数据格式,由表及里地进行了深入分析:
传统困境:为何 "Depth-Warp-Inpaint" 走不通?
在 StereoPilot 之前的研究工作中,学术界和工业界主流的 2D 转 3D 方案通常采用“深度估计 - 重投影 - 补全”(Depth-Warp-Inpaint, DWI)的多阶段流水线 :首先估计输入视角(如 left-view)每个像素的深度,再依据深度和视差(disparity)的反比关系计算出视差进而重投影到目标视角(right-view),最后再对遮挡位置进行补全。虽然这种方法符合直觉,但在实际应用中却存在三大致命缺陷:
1. 误差累积(Error Propagation)
DWI 流程是串行的:先估计深度图,再根据深度图将像素 “重投影”(Warp)到另一只眼睛的视角,最后修补空洞。这导致了一个严重的问题:一步错,步步错。如果初始的深度估计不准确,后续的重投影步骤会直接放大这种错误,导致最终生成的画面出现严重的几何畸变和伪影 。
2. 深度歧义(Depth Ambiguity)
搞不定的 “镜中花”这是 DWI 方法面临的最棘手的物理难题。在现实世界中,镜子或玻璃等反光表面存在一种特殊的现象:镜子表面的物理深度与镜子里反射物体的成像深度是不同的。 然而,传统的深度估计算法在同一个像素点上只能预测一个深度值。这导致 DWI 方法无法正确处理反射场景 —— 它们往往会将物体反射的光学成像如同纹理一样错误地 “贴” 在镜子表面,导致 3D 观感极度违和。
基于以上的现象观察和论述,我们可以得到:在镜面反射、透明等一个位置具备多个光学深度的场景下,单目深度估计算法预测得出的单一深度值,将无法通过简单的反比几何关系导出视差从而进行正确的重投影(warp)操作,而作者提出的 StereoPilot 则很好处理了“镜中花”的场景,如下图所示:
3. 格式不一致(Format Inconsistency)与几何假设失效
目前的 DWI 方法通常假设:深度(Depth)与视差(Disparity)之间存在简单的反比关系。这种假设仅对平行摄像机(Parallel)配置有效。然而, 3D 电影影视工业中,为了获得更好的观影体验,通常使用的是汇聚摄像机(Converged/Toe-in)。 在汇聚模式下,上述简单的几何假设不再成立,强行使用 DWI 方法会导致视差计算错误,和需要还原的 3D 训练数据无法达成一致。
拨开迷雾:Converged(汇聚式) vs. Parallel(平行式)
为了彻底解决格式问题,我们必须先理清 3D 视频数据的两种主要格式,StereoPlilot 的作者用下面的图例形象地展示了两种数据格式的区别:
- 平行格式(Parallel): 左右两个相机的光轴是完全平行的。这种格式常见于计算机视觉数据集,其视差与深度成简单的反比关系,常常被用于计算高精度的深度值。
- 汇聚格式(Converged): 左右相机的光轴向内旋转,汇聚于一点(汇聚点)。这会产生一个 “零视差平面”—— 在这个平面之前的物体会有出屏效果(正视差),而在其之后的物体则 “深陷” 屏幕中(负视差),而处于零视差面的主体则没有视差,观众的眼睛提供了休息区。这是 3D 电影工业的标准格式。深度与视差之间不再存在简单的反比关系。
下面两个例子形象展示了了两种 3D 数据格式的区别:
平行格式(Parallel)vs 汇聚格式(Converged)
由于先前的研究工作往往从未对这两种格式进行区分,或者只在单一格式上进行训练,不可避免的带来了一些不合理的对比,如将汇聚式 3D 电影数据集上训练的模型在平行光轴的数据集上进行测试对比。
StereoPilot:统一、高效的端到端解决方案
为了攻克上述难题,快手可灵联合港科大(广州)团队提出了StereoPilot。
UniStereo:首个大规模统一 3D 立体视频数据集
团队构建了UniStereo数据集,数据处理打标流程如下图所示,这是业界首个同时包含 Parallel 和 Converged 两种格式的大规模 3D 立体视频数据集。UniStereo 数据集包含了两个部分:
- Stereo4D (Parallel): 包含了 Stereo4D 的数据中 58,000 个 5 秒的源自真实世界的平行视角视频片段 。
- 3DMovie (Converged): 从 142 部高质量 3D 电影中精选并处理了 48,000 个 5 秒的汇聚视角视频片段。
作者将会公开 Parallel 格式的所有数据和 Converged 格式数据的处理流程。
统一高效的模型结构
StereoPilot 的模型结构如上图所示,主要包含下面三个核心部分:
- Diffusion as Feed-Forward 11 秒极速转换:不同于传统的迭代式扩散模型(需要几十步采样,速度慢),StereoPilot 首次在该任务中采用了的"Diffusion as Feed-Forward"架构。作者将时间步 固定为一个极小值,利用预训练视频扩散模型(Video Diffusion Transformer)强大的生成先验,直接在单次前向传播中预测目标视图。 这使得 StereoPilot 处理一个 5 秒(81 帧)的视频仅需 11 秒,而同类方法(如 Mono2Stereo, SVG)往往需要十几分钟甚至一小时。
- Domain Switcher 全能格式切换:为了让一个模型同时搞定两种 3D 格式并提高模型的泛化能力,StereoPilot 引入了一个可学习的 Domain Switcher。这就好比给模型装了一个 “开关”,用户可以根据需要,自由控制生成 Parallel 还是 Converged 格式的 3D 视频,实现了真正的统一。
- Cycle Consistency 保证几何一致性:为了确保生成的左眼和右眼视频在几何上更好的对齐,团队还设计了循环一致性损失(Cycle Consistency Loss),强制模型在从左图生成右图、再从右图还原左图的过程中保持信息不丢失,提升了目标视角与源视角的几何一致性。
实验对比展示
定量指标对比
作者在 UniStereo 基准测试集中对近期的 SOTA 方法进行了全面的对比,如表格所示,StereoPilot 在 PSNR、SSIM、LPIPS 等所有核心指标上均显著优于 StereoDiffusion, StereoCrafter, SVG, Mono2Stereo 等现有 SOTA 方法,在推理性能上,对比其他方法动辄十几分钟到一个多小时的推理时间,StereoPilot 的 11 秒的推理速度实现了压倒性的优势。
可视化对比
根据作者展示的可视化对比结果,相比其他的 SOTA 方法,StereoPilot 预测的结果具有更加准确的视差和更高的视觉质量。此外,如前文中分析,StereoPilot 可以处理复杂的镜面场景(如下图中的最后一列的样本),这是其他方法从原理上无法做到的事情。
消融分析
为了验证 StereoPilot 方法中的模块的有效性,作者提供了 Domain Switcher 和 Cycle Consistency 的消融分析实验。
首先,如下展示的动态效果所示,StereoPilot 可以在 Domain Switcher 的加持下,实现 parallel 和 converged 的两种 3D 格式的灵活转换。
除了实现灵活统一的 3D 视频转换外,作者进一步地进行定量和定性实验,验证统一地训练方式对模型泛化性能的影响,如下图表所示:
从图表展示的结果可以看出 Domain Switcher 和 Cycle Consistency 为模型在测试集上提供了更好的泛化性能与一致性。
结语
快手可灵团队和港科大广州联合提出的 StereoPilot,实现了快速高质量的端到端 2D 视频转 3D 视频,打破了 2D 转 3D 依赖昂贵人工或低效深度重投影的桎梏,为 VR/AR 内容创作、老电影修复以及沉浸式视频体验提供了新的可能性。此外,团队首次阐明 parallel 和 converged 两种 3D 立体视频数据的格式,并首次构建了大规模统一 3D 立体视频数据集,澄清了该领域的训练、测评标准。
[1] https://zh.wikipedia.org/wiki/% E6% B3% B0% E5%9D% A6% E5% B0% BC% E5%85%8B% E5%8F% B7_(1997% E5% B9% B4% E7%94% B5% E5% BD% B1)
热门跟贴