港科大开源VideoVAE+，视频重建质量全面超越最新模型|时序|模态|港科大开源|编码器|视频重建

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

港科大团队重磅开源 VideoVAE+，提出了一种强大的跨模态的视频变分自编码器（Video VAE），通过提出新的时空分离的压缩机制和创新性引入文本指导，实现了对大幅运动视频的高效压缩与精准重建，同时保持很好的时间一致性和运动恢复。

论文地址：https://arxiv.org/abs/2412.17805
代码已开源：https://github.com/VideoVerses/VideoVAEPlus

VideoVAE + 模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer，同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video，CogvideoX VAE，WF-VAE，CV-VAE，Open Sora，Open Sora Plan, Easy Animate-VAE。

什么是 VideoVAE 模型

VideoVAE 模型（Video Variational Autoencoder）是一种基于深度学习的生成模型，用于对视频数据进行压缩、重建和生成，讲视频从 RGB 像素空间投影到低维度的 latent 空间。常用于结合 Diffusion 生成模型组成两阶段的模型结构：即先通过 VideoVAE 的编码器（Encoder）实现压缩数据维度，去除冗余信息，再在低维 latent 空间用 diffusion 模型进行 latent 生成，最后通过 VideoVAE 的解码器（Decoder）将 latent 解码到 RGB 视频，从而实现降低计算资源，更加高效的生成。

目前方法

一些方法直接采用图像 VAE 进行逐帧压缩，忽略了帧与帧之间的时间关联性，导致视频生成过程中出现严重的时序闪烁问题。此外，时间维度上的冗余信息未被充分压缩，使得后续的扩散模型训练效率低下，成本高昂。

另外，最近很多方法开始使用 VideoVAE，考虑时间维度，但仍存在诸多问题。包括细节模糊和失真（比如面部、手部、边缘和文本），以及重建大幅运动的视频时，出现运动卡顿（缺乏连贯及合理的时序过渡）和伪影等问题。

图 1：该研究将该研究的方法和一众优秀工作包括 Open Sora Plan, Open Sora, CV-VAE, CogVideoX-VAE, Easy Animate-VAE 进行了视觉对比，VideoVAE + 能够准确重建大幅运动的视频，并且有效解决了运动卡顿，重建模糊，细节缺失等问题。

方法

为了解决上述问题，VideoVAE + 提出了一种新的 cross-modal Video VAE 架构，其设计的关键点包括：

1. 时空分离的压缩机制：提出一种时序感知的空间压缩方法，有效分离空间和时间信息处理，避免因时空耦合而导致的运动伪影。

2. 轻量级运动压缩模型：专门设计了一个模型用于时序压缩，高效捕获视频中的运动动态。

3. 文本信息融合：利用文本到视频数据集中的文本信息作为指导，提高视频细节的保留能力和时间稳定性。

4. 图像和视频的联合训练：通过在图像和视频数据上的联合训练，增强了模型在多任务上的重建性能和适应性。

文章对比了三种时空建模方法：同步建模、顺序建模以及该研究提出的最优时空建模方案。

方式 1 同时建模：通过将预训练的 2D 空间 VAE 扩展为 3D VAE 实现，进行时间和空间的同步压缩。然而，这种方法在捕捉时间动态时容易导致信息混淆，影响生成质量。
方式 2 顺序建模：先通过空间编码器压缩空间维度，再用时间编码器压缩时间信息。但这种方式对时序细节的处理较为有限，容易出现时序一致性问题。
该研究的方法：该研究结合两种方法的优势，提出最优的时空建模策略。

该研究的方案具体包括时序感知的空间自编码器（Temporal-aware Spatial AutoEncoder）和时序自编码器（Temporal Autoencoder）：

在第一阶段，该研究将 2D 卷积扩展为核大小为 (1,3,3) 的 3D 卷积，并与同时建模类似，同时添加了额外的 3D 卷积层来建模时序维度，该研究将第一阶段的模型称为时序感知的空间自编码器。但与方式 1 同时建模不同的是，在第一阶段中，该研究仅压缩空间信息，而不压缩时序信息。

在第二阶段中，该研究引入了另一个时序自编码器（Temporal Autoencoder）来进一步编码和压缩时间维度信息，这作为第二阶段的压缩部分。该研究遵循方式 2 的时间编码器和解码器设计。通过这种方式该研究同时实现了更好的细节恢复能力和运动恢复能力。

同时，该研究提出引入跨模态信息，通过文本指导进一步增强视频生成的细节保留和时间一致性。

该技术的主要特点有：

1. 智能特征分块

将视频的视觉特征图分割成小块（patch），并将它们作为 token 进行处理，不同层采用多种尺寸（8×8、4×4、2×2、1×1），确保每层特征的细节追踪到位。

2. 跨模态注意力机制

首次在 Video VAE 任务上引入文本信息作为语义指导，让视觉 token（作为 Query）与文本嵌入（作为 Key 和 Value）计算跨模态注意力，提升细节重建质量。

3. 强大的文本嵌入器

采用先进的 Flan-T5 模型，将文字转化为语义向量，为视频生成提供坚实的语义基础。

其次，该研究采用了图像与视频的联合训练。模型能够同时接受图像和视频作为训练数据，既学习图像压缩能力，又提升视频压缩性能。在训练中该研究观察到，加入更多高质量的图像数据，能进一步增强视频自编码性能。

结果

该研究提供了 latent 在 16 channel 和 4 channel 两个版本的模型，以及在三个不同的数据集上对效果进行了全面评测。

该研究的 VideoVAE + 模型大幅超过最新模型包括英伟达在 2024.11 发布的 Cosmos Tokenizer，同时也超越一众方法包括腾讯在 2024.12 发布的 Hunyuan Video，CogvideoX VAE， WF-VAE，CV-VAE，Open Sora，Open Sora Plan, Easy Animate-VAE。