港中文薛天帆团队：实现 4K 全景视频生成，普通视频也能「长出空间」丨CVPR 2026|360|cvpr|清晰度|薛天帆|计算机视觉

CubeComposer：一种基于时空自回归的360°视频生成框架，兼顾清晰度、连贯性与沉浸感。

作者丨郑佳美

编辑丨岑峰

很多人都经历过这样一种落差。现实里的空间是立体的，是包围人的，是可以转身、抬头、回望的，可一旦被手机或相机拍成视频，世界立刻被压缩成一个窄窄的取景框。

暴雨来临前的天空并不只在镜头正前方，深夜街区的压迫感也不只来自路面，商场中庭、地下车站、展馆大厅、建筑内部，这些真正让人产生现场感的东西，往往恰恰存在于镜头之外。我们记录下了事件，却没有真正留住空间，保存了画面，却没有保存身处其中的感觉。

这也是今天沉浸式内容产业最真实的困境之一。大家已经越来越明确地意识到，未来的视频不只是给人看，更是给人进入、环视和停留的。VR、数字展陈、虚拟空间、文旅体验、游戏场景、线上看房、远程教育，这些领域真正需要的都不是普通平面视频，而是能够承载空间感、方向感和临场感的全景内容。

问题在于，需求已经跑在前面，生产方式却还停在后面。要拍摄高质量 360° 视频，往往仍要依赖专门设备、多机位系统、复杂拼接流程和高昂成本，真正能稳定产出的人和机构始终有限。也就是说，沉浸式内容的想象已经很丰富，但它的供给能力并没有跟上。

这也是沉浸式内容行业一直没有被真正做大的关键原因。市场越来越需要 360° 视频，VR、虚拟空间、数字展陈、互动体验都在等更丰富的内容供给，可现实生产仍然依赖昂贵设备、复杂流程和高成本制作。大家都知道普通视频是最丰富、最便宜、最容易获取的素材，但怎样把它真正扩展成高质量全景视频，始终是行业里最难啃的问题之一。

正是在这样的背景下，香港中文大学的薛天帆团队提出了CubeComposer，并在论文《CubeComposer: Spatio-Temporal Autoregressive 4K 360° Video Generation from Perspective Video》中，试图回答一个真正有行业分量的问题，也就是普通视角视频能否被直接扩展成原生 4K 的 360° 视频，而且这种扩展不是表面上的放大，不是看起来清楚一点，而是能够在空间连续性、时间稳定性和整体真实感上都站得住。

这件事可以想得更具体一点。以后一个商场空间的宣传视频，也许不必再靠专门全景设备拍摄；一段城市夜景素材，也不只是单一方向的记录，而可能被扩展成可以环视的沉浸式场景；很多原本只能平面观看的内容，未来都有机会变成能让人重新进入其中的空间体验。

CubeComposer 的价值，也正是在这里。它不是单纯把模型性能往上推了一点，而是在普通视频如何变成沉浸式内容这件事上，给出了一条更接近现实应用的路。

论文链接：https://arxiv.org/pdf/2603.04291

真正拉开差距的，不只是分辨率

研究团队在两个数据集上对方法进行了测试，分别是自建的 4K360Vid 和公开数据集 ODV360。评价指标包括 LPIPS，数值越低表示结果越接近真实；CLIP，数值越高表示语义一致性越强；FID 和 FVD，用于衡量生成质量；以及 VBench 中的美观度、清晰度和一致性。

在 4K360Vid 上，与最强基线 Argus 相比，CubeComposer 的 LPIPS 从 0.4074 降到 0.3696，CLIP 从 0.8858 提高到 0.9234，FID 从 141 降到 119，FVD 从 4.07 降到 3.90，说明生成结果在感知质量、语义一致性以及视频稳定性上都有明显提升。

进一步看最关键的 4K 版本，FVD 继续降到 2.22，清晰度指标 I.Q. 提升到 0.56 以上，美观度指标 A.Q. 提升到 0.40 以上，这说明分辨率更高的同时，质量不但没有下降，反而进一步提升。

在 ODV360 上也呈现出同样趋势。LPIPS 大约从 0.43 降到 0.42，CLIP 从大约 0.88 提升到 0.90 以上，FID 从大约 140 降到 123，FVD 更是从 Argus 的 12 以上降到 CubeComposer 的 3.5。这里尤其值得注意的是，FVD 从 12 降到 3.5，反映出视频时序稳定性和整体连贯性出现了非常显著的提升。

研究人员还比较了这种方法与超分辨率方案之间的差别。以往常见做法是先生成 1K 视频，再用 VEnhancer 放大到 2K，但这种方式并没有真正带来更高质量的结果。例如 FID 会从 141 上升到 168，指标反而变差，视觉效果也更不自然。这说明后处理放大并不等于真正的高分辨率生成，CubeComposer体现的是原生高质量，而不是放大之后形成的表面清晰。

除了定量结果，研究还给出了定性对比。传统方法普遍存在远处细节模糊的问题，例如树木和建筑不够清晰，运动过程中容易出现画面抖动，拼接区域会出现断裂，经过超分辨率处理之后还会产生明显的“涂抹感”。

相比之下，CubeComposer 生成的结果在远景区域依然保持较高锐度，画面运动更加连续，没有明显的拼接缝，整体观感也更接近真实的 360° 视频。这说明这种提升不仅体现在指标上，也能在视觉上直接感受到更强的真实性。

研究团队还通过消融实验验证了核心机制的作用。对于上下文机制，研究人员比较了三种设置，分别是完整方法 Ours、去掉未来信息的 w/o future tokens，以及使用全量上下文的 Full tokens。

结果表明，一旦去掉未来信息，FVD 会从 4.25 上升到 6.03，性能明显变差；而 Full tokens 的性能虽然与完整方法接近，但计算开销更高。这说明未来信息对视频生成非常关键，不过并不需要把所有未来信息全部输入，只需要保留关键片段，就可以在性能和效率之间取得更好的平衡。

在连续性设计，也就是防止拼接痕迹的实验中，研究人员同样比较了三种版本，分别是去掉位置编码、去掉 padding 和 blending，以及完整模型。结果显示，只要去掉其中任意一个组件，FID 就会从 157 上升到 190 以上，同时 LPIPS 也会变差，生成结果显得更不真实。

从可视化现象来看，最直接的问题就是边界位置出现明显裂缝。由此可以看出，连续性设计是 360° 视频生成中非常关键的一部分，对于保证不同区域之间的自然衔接具有决定性作用。

一套不止于模型的完整打法

在数据集构建方面，研究团队首先建立了 4K360Vid 数据集。这一数据集包含 11,832 段视频，分辨率均达到 4K 及以上，来源是在 Argus 数据集基础上进一步扩展得到。

为提升数据可用性，研究人员使用 Qwen-VL 自动生成视频描述，并对低质量视频进行了过滤，因此这个数据集具有高质量、有语义标注、适合生成模型训练等特点。除 4K360Vid 之外，研究中还使用了 ODV360 数据集，这是一套标准的 360° 视频数据集，主要用于训练和测试。

在训练设置方面，研究团队首先从 360° 视频中构造输入数据。每个训练样本都经历了几个步骤：先从原始 360° 视频中随机生成相机轨迹，再据此生成普通视角视频，用来模拟手机或常规相机拍摄的效果，之后再把这种普通视角视频转换成带缺失区域的 360° 视频。

于是，模型面对的任务就变成了对缺失区域进行补全，同时还要保证时间上的一致性和空间上的一致性。为了更贴近真实拍摄场景，研究中将相机视角范围设置为 60° 到 120°，轨迹由 3 到 5 个关键点构成。

在训练方法上，研究人员以 Wan 2.2 5B 视频模型作为基础模型。在具体训练过程中，系统会随机选择一个时间窗口以及 cubemap 中的某一个面，然后围绕这一目标构建上下文信息，上下文由历史信息、当前信息和未来信息共同组成，在这种条件下训练模型去预测视频内容。

在推理，也就是生成阶段，研究团队采用分步生成策略。首先把整段视频划分成多个时间窗口，然后在每个时间窗口内，按照 F、R、B、L、U、D 六个面的顺序逐步生成内容。

每一次生成时，系统都会利用上下文信息，尤其是历史信息和未来信息，最后再把六个面重新拼接起来，形成完整的 360° 视频。从本质上看，这个过程就是把整个球形视频一点一点补全出来。

在对比实验设计上，研究团队选择了 Argus、Imagine360 和 ViewPoint 作为主要比较对象。为了保证对比公平，所有方法都使用相同的输入视频，并尽量控制在相同视角范围，也就是 90°×45° 的设置下进行比较。由于 ViewPoint 只能处理 90°×90° 的输入，因此研究人员针对这一方法单独采用了相应设置。

在评测方式上，研究使用了三类指标。第一类是参考指标，包括 LPIPS 和 CLIP；第二类是分布指标，包括图像层面的 FID 和视频层面的 FVD；第三类是主观质量指标，也就是 VBench，其中包括美观度 A.Q.、清晰度 I.Q. 和一致性 O.C.。研究人员还特别说明，为了避免比较不公平，每个模型都按照自身支持的分辨率进行评测。

从少数人能做，到更多人能用

回到实验意义层面，这项研究并不只是把分辨率从 1K 提高到 4K，更重要的是研究团队真正突破了 360° 视频生成长期卡住的技术上限。

过去的扩散模型往往要一次性生成整段 360° 视频，计算量非常大，显存和算力压力也极高，所以结果通常只能停留在较低分辨率，画面细节不足，离真正可用还有明显距离。

研究人员把原本整体生成的任务拆开，在空间上分成 6 个面，在时间上分成多个窗口，再按照顺序逐步完成生成，这样一来，原本难以承受的计算压力就被分散了，高分辨率生成也从理论上的困难问题变成了实际可落地的方案。也就是说，这项研究的价值不只是生成得更清楚，而是证明了高质量 360° 视频生成这件事终于可以做成。

从研究方法来看，这项工作也提出了一种很有代表性的思路。以往很多生成模型追求一次性把完整内容做出来，而研究团队转向了时空自回归方式，把视频生成理解为一个逐步推进、不断补全的过程。

这种变化非常重要，因为它说明复杂的视频生成任务未必一定要整体完成，也可以像写文章、拼地图一样，一部分一部分地构建起来。这样的思路对未来的视频生成、3D 生成，甚至世界模型研究都有启发意义，因为很多更复杂的生成任务，本质上都可能受益于这种分步骤、分区域、分时段的处理方式。

对于 360° 视频本身，这项研究还真正碰到了最难的几个核心问题，并且给出了比较完整的解决路径。普通视频只能拍到局部视野，所以生成 360° 内容时最先遇到的问题就是看不见的区域怎么补。

不同方向上的内容又必须彼此连贯，否则用户一转头就会感觉场景是假的。再往下，多个区域拼接在一起时还很容易在边界位置出现裂缝、错位和跳变。研究团队分别用上下文机制、未来信息、生成顺序设计和连续性设计去处理这些问题，说明这项工作不是只在单一指标上提升，而是在朝着真正可观看、可使用、可沉浸的 360° 视频迈进。

更值得强调的是，这项研究对普通人的影响其实很直接。过去如果想做 360° 视频，通常需要专门的 360° 相机或者复杂的多机位设备，成本高，操作门槛也高，真正能用的人并不多。现在按照这项研究展示出来的方向，未来普通人拿着手机、运动相机，或者一台普通摄像设备拍下来的视角视频，就有可能被自动扩展成 360° 内容。

这意味着很多原本只有专业团队才能完成的事情，以后普通用户也可能做到。比如旅行时拍的一段风景视频，未来不只是平面的记录，而可能被做成可以自由转动视角的沉浸式回忆；家里的日常生活、聚会、演出、婚礼，也有机会被保存成更有现场感的内容；老师、博物馆、景区、创作者和小型工作室，也不一定非要购买昂贵设备，照样有可能制作出更有沉浸感的展示材料。

从应用层面看，这项研究会影响的不只是实验室里的模型性能，还会影响普通人接触内容的方式。对于 VR 内容制作来说，它降低了制作门槛，让更多内容来源不再依赖专业拍摄设备。对于游戏和虚拟场景生成来说，它意味着环境构建可能更快、更便宜。对于数字孪生和虚拟旅游来说，它意味着现实世界中的一个普通视频片段，未来就有机会被扩展成更完整、更可交互的空间体验。

换句话说，这项研究推动的不是单纯的算法升级，而是让沉浸式内容从少数专业机构手里，逐渐走向更多普通人可用、可看、可创作的方向。

从更深一层看，研究真正重要的地方在于三个关键设计被结合到了一起，也就是时空自回归、包含未来信息的上下文机制，以及用来降低计算复杂度的稀疏注意力。单独看其中任何一个设计，都很难彻底解决问题，但三者合在一起，才让 4K 360° 视频生成第一次真正具备了现实可行性。

所以，这项研究的意义不仅在于做出了一个效果更好的模型，更在于它给未来高分辨率沉浸式视频生成提供了一条清晰可行的技术路线。

CubeComposer 背后的人

这篇文章的通讯录作者为薛天帆，目前任职于香港中文大学信息工程系助理教授。他的研究主要集中在计算摄影、计算机视觉、机器学习以及计算机图形学等方向，长期关注如何让机器更好地理解和重建视觉世界。

在学术经历上，薛天帆本科毕业于清华大学，随后在香港中文大学获得硕士学位，并在麻省理工学院计算机科学与人工智能实验室完成博士研究，师从计算机视觉领域知名学者 William T. Freeman。

在进入高校任教之前，他曾在 Google Research 工作多年，从事图像与视频处理相关研究，并参与多项实际落地的影像算法开发，例如移动设备夜景成像、图像增强和编辑系统等，这些技术已经被应用在真实产品中。

在科研成果方面，他在计算机视觉与图形学顶级会议和期刊上发表了大量论文，研究方向覆盖视频生成、3D 重建、图像增强等多个领域，累计被引用超过一万次。同时，其团队近年来在多个国际顶级会议中获得重要认可，例如 SIGGRAPH、CVPR、NeurIPS 等会议的论文奖项和展示荣誉，体现出持续的研究影响力。