打开网易新闻 查看精彩图片

这项由香港大学联合字节跳动、香港中文大学和南京大学共同完成的研究发表于2026年的arXiv预印本平台,研究编号为arXiv:2602.04220v1。有兴趣深入了解的读者可以通过该编号查询完整论文。

当你在手机上拍摄视频时,是否曾遇到过这样的困扰:一段短短几分钟的高清视频就占据了几个G的存储空间,传输起来慢得让人抓狂。同时你可能也发现,有些简单的静态画面视频和那些充满快速运动、复杂场景的视频占用着几乎相同的存储空间,这似乎很不合理。就像用同样大小的行李箱装不同数量的衣服一样,明明可以更灵活地分配空间。

传统的视频压缩技术就像是用固定尺寸的盒子装东西,无论里面放的是简单的积木还是复杂的拼图,都要用同样大的盒子。这种"一刀切"的方式显然浪费了不少空间。更要命的是,当你想要从这些压缩后的视频中重建原始画面时,经常会丢失一些重要细节,就像拼图少了几块一样。

为了解决这个问题,研究团队开发了一个名为"一维扩散视频自编码器"(One-DVA)的新技术。这个名字听起来很学术,但实际上它就像一个超级智能的视频管理员,能够根据每个视频的具体内容来决定需要多少存储空间,并且在需要的时候能够完美地重建原始视频。

一、传统视频压缩的三大困境

现有的视频自编码器就像是一个固执的管家,无论面对什么样的视频内容,都坚持使用相同的处理方式。这种方式存在三个主要问题。

首先是固定压缩率的问题。设想你有两个视频:一个是静止的蓝天白云,另一个是激烈的篮球比赛。显然,静态的天空景色可以用很少的信息来描述,而快速移动的球员和变化的场景需要更多的细节。但传统技术却给它们分配相同的存储空间,这就像用同样大的包装盒来装一根牙签和一整套工具一样不合理。

其次是架构inflexibility的问题。传统的卷积神经网络就像是专门设计的模具,只能处理固定形状的输入。当你想要处理不同长度的视频片段时,就像试图用圆形模具来制作方形蛋糕一样困难。相比之下,Transformer架构就像一个万能工具箱,可以灵活地处理各种形状和大小的输入。

第三个问题是有损压缩造成的细节丢失。当压缩比例过高时,解码器就像一个健忘的画家,必须凭空想象那些被省略的细节。这往往会导致重建的视频出现模糊、失真等问题,就像根据不完整的食谱做菜,总会缺少一些关键味道。

二、One-DVA的创新解决方案

面对这些挑战,研究团队设计的One-DVA系统就像一个具有超强适应能力的智能助手。它采用了三个核心创新来彻底改变视频处理的方式。

首先是自适应的一维编码技术。这个系统使用基于查询的视觉Transformer来提取视频特征,就像一个经验丰富的侦探,能够从视频中精准地识别出哪些信息是真正重要的。系统会生成两种类型的表示:结构化潜在表示和一维潜在序列。结构化表示就像视频的"骨架",保存着基本的空间布局信息,而一维序列则像"血肉",包含着丰富的细节信息。

特别巧妙的是,系统引入了可变长度的dropout机制。这就像一个智能的编辑器,能够根据视频的复杂程度动态调整需要保留的信息量。对于简单的静态场景,它会保留较少的tokens;对于复杂的动态场景,则会保留更多的细节信息。这种动态调整是基于运动评分来实现的,系统会计算视频帧之间的像素差异,从而估计视频的运动复杂度。

第二个创新是扩散式解码技术。传统的解码器像一个按部就班的工人,只能机械地按照固定程序重建视频。而One-DVA的解码器更像一个有创造力的艺术家,它使用扩散过程来生成视频,能够在重建过程中"脑补"那些被压缩时省略的细节。这个过程就像从一幅素描逐步添加色彩和纹理,最终形成一幅完整的画作。

第三个创新是两阶段训练策略。第一阶段专注于训练编码器,让它学会如何有效地提取视频特征。为了防止信息泄露简化重建任务,系统在解码器中输入纯随机噪声,这样编码器就必须学会捕获所有重建所需的关键信息。第二阶段则引入扩散时间步采样和可变长度压缩,让整个系统学会处理不同压缩比例下的重建任务。

三、让AI学会"看菜下饭"的训练过程

One-DVA的训练过程就像教会一个学徒如何成为优秀的视频处理师傅。整个过程分为几个精心设计的阶段,每一步都有其特殊的目的。

在第一阶段的确定性预训练中,系统专注于让编码器学会识别视频中的关键信息。这个阶段就像让学徒先学会识别不同类型的食材和工具。为了确保编码器真正学到本事而不是投机取巧,训练时故意向解码器输入纯随机噪声,这样编码器就不得不将所有重要信息都编码到潜在表示中。同时,系统还会禁用可变长度dropout,先建立一个重建能力的上限基准。

第二阶段的随机后训练则像是让学徒在真实环境中练手。系统开始启用扩散时间步采样和可变长度dropout,让整个框架学会应对各种不同的压缩场景。这个阶段采用厚尾对数正态分布来采样扩散时间步,这样做的好处是让系统在10%的时间内体验完全噪声的情况,从而保持足够的鲁棒性。

训练过程中使用的损失函数就像一个严格的考试评分标准。除了基本的扩散损失,系统还引入了感知损失来确保重建的视频在视觉上令人满意,KL损失来规范潜在空间的分布,以及REPA损失来提高特征表示的质量。这些不同的损失函数相互配合,就像一个全面的评估体系,确保系统在各个方面都达到高标准。

四、为视频生成量身定制的适配优化

虽然One-DVA在重建任务上表现出色,但要让它服务于下游的视频生成任务,还需要进行一些巧妙的适配优化,就像为一台精密仪器调节不同用途的参数设置。

潜在空间对齐是一个关键步骤。研究团队发现,来自空间补丁的结构化潜在表示和来自可学习查询的一维潜在表示之间存在着某种"语言不通"的问题。结构化潜在表示就像有着天然空间意识的导航员,而一维潜在表示更像是记忆力超强但缺乏空间感的图书管理员。为了让它们协同工作,系统引入了自对齐机制,通过最小化每个一维潜在向量与其在结构化潜在空间中最匹配对象的余弦距离来实现对齐。同时,系统还会强化内部连续性,最大化每个一维潜在向量与其最近邻之间的自相似性。

解码器微调是另一个重要环节。生成模型的采样过程不可避免地会引入预测误差,这些误差在像素空间中往往表现为明显的块状伪影。这就像拼图时有些小块略微错位,单独看还可以,但组合起来就会出现明显的接缝。为了解决这个问题,研究团队直接使用潜在扩散模型生成的潜在表示来微调解码器,让它学会适应这种分布偏移。这个过程就像让厨师适应稍微变质的食材,通过调整烹饪技巧来确保最终菜品的质量。

在实际的生成任务训练中,团队采用了分阶段策略。首先只使用结构化潜在表示训练扩散模型,因为这部分信息虽然细节有限,但包含了足够的低频语义信息和空间约束。经过充分训练后,再加入一维潜在表示进行联合建模。这种渐进式的训练方法就像先学会画轮廓,再添加细节,确保生成的视频既有合理的整体结构,又有丰富的细节表现。

五、实验验证:数据说话的时刻

研究团队进行了大量实验来验证One-DVA的有效性,这些实验就像一系列严格的体能测试,从多个角度检验系统的能力。

在重建质量测试中,One-DVA与当前最先进的视频自编码器进行了正面对决。实验使用了包括CogVideoX、HunyuanVideo、Wanx等在内的多个业界领先系统作为对比基准。结果显示,在标准压缩比下,One-DVA在PSNR和SSIM指标上都达到了最佳性能,同时在重建FVD指标上也取得了第二好的成绩。更重要的是,当系统使用自适应压缩策略时,能够在保持相当重建质量的同时显著提高压缩效率。

可变长度编码的优势在详细的案例分析中得到了清晰展现。对于运动较大的视频,PSNR指标随着一维潜在长度的减少而急剧下降,这说明这类视频确实需要更多的细节信息来保证重建质量。相比之下,静态或运动较少的视频即使在较短的一维潜在长度下也能保持相对较高的重建质量。这种差异化处理能力正是传统固定压缩率方法所缺乏的。

扩散调度的有效性也得到了实验证实。研究显示,采用随机时间步和多步扩散采样能够显著提升重建质量,特别是在条件信息不充分的情况下。当使用完整的一维潜在表示作为条件时,采样步数的影响相对较小;但当条件信息减少时,增加采样步数能够带来明显的rFVD改善。

在生成任务的评估中,One-DVA支持的潜在扩散模型在类别条件视频生成任务上达到了与Hi-VAE等先进方法相当的性能水平,gFVD指标为210.9。这个结果证明了One-DVA的潜在空间确实适合支持下游的生成任务。特别值得注意的是,仅使用结构化潜在表示的设置虽然生成质量有所下降,但仍能产生合理的视频内容,这说明了系统设计的层次化表示策略的有效性。

六、技术细节:让魔法变成现实的工程艺术

One-DVA的实现过程充满了巧妙的工程技巧,这些细节就像精密手表中的每一个齿轮,看似微小却至关重要。

在架构设计方面,编码器和解码器都采用了Transformer架构,隐藏维度设为1152,包含24个块和16个注意力头。空间补丁大小设定为8,解码器的时间补丁大小为2,而编码器为了提高效率将时间补丁大小设为4。对于无法被补丁大小整除的视频尺寸,系统在空间轴上使用零填充,在时间轴上使用复制填充。由于系统支持三种典型分辨率的视频重建,查询的最大数量被设定为1938,对应4×16×16的压缩比率。

运动感知的token长度估计是一个特别有趣的技术细节。系统首先将视频帧转换为灰度图像,然后计算连续帧之间的绝对像素差异,并在所有时空维度上求平均得到非负标量评分。在训练过程中,系统维护这个值的均值和标准差的指数移动平均,并通过归一化公式将原始评分转换为0到1之间的运动评分。为了引入随机性同时保持中心趋势,系统还会采样一个乘数因子,最终的时间token数量通过这个评分、最大token数量和随机因子的乘积来确定。

训练策略的具体实现也体现了研究团队的深思熟虑。第一阶段使用AdamW优化器,权重衰减设为10^-4,损失权重经过精心调整以平衡不同损失项的贡献。第二阶段降低学习率并启用可变长度压缩,训练过程中10%的条件使用完整潜在表示,10%使用仅结构化潜在表示,其余情况使用部分一维潜在表示。

七、实际应用:从实验室走向现实世界

One-DVA的潜在应用场景非常广泛,就像一把万能钥匙,能够打开多个领域的大门。

在视频流媒体服务中,这项技术能够根据视频内容的复杂程度动态调整压缩策略。对于那些静态画面较多的纪录片或访谈节目,系统可以采用更高的压缩比来节省带宽和存储成本。而对于动作片或体育赛事等运动密集的内容,系统会自动分配更多的比特率来保证画面质量。这种智能化的处理方式不仅能提升用户体验,还能显著降低运营成本。

在视频会议和远程教育领域,One-DVA的扩散式重建能力特别有价值。当网络条件不佳导致视频传输受限时,系统仍能通过生成式解码来维持相对清晰的画面质量。特别是对于那些主要包含人脸和简单背景的会议视频,系统能够用极低的带宽传输关键信息,然后在接收端重建出清晰的视频画面。

在移动设备的视频处理中,这项技术能够帮助解决存储空间不足的问题。用户拍摄的大量视频可以根据内容特征进行智能压缩,重要的家庭聚会或旅行视频会保留更多细节,而那些重复性高或内容简单的视频则会被更紧凑地存储。

内容创作和编辑领域也将从中受益。视频编辑软件可以利用One-DVA的可变长度编码特性来优化项目文件的存储结构。复杂的特效片段可以保留更多的编辑灵活性,而简单的过渡片段则可以用较少的空间存储。这种差异化处理能够让创作者在有限的硬件资源下处理更大规模的项目。

八、技术挑战与未来展望

虽然One-DVA展现了令人振奋的潜力,但研究团队也诚实地指出了当前的一些局限性和未来的改进方向。

首先是流式生成能力的实现。虽然系统的架构理论上支持流式处理,但在实际实验中这一特性还没有得到充分实现。未来的工作需要探索如何利用重叠的时空窗口来支持长视频的实时处理,这对于直播和实时通信应用尤为重要。

其次是token长度的最优确定问题。目前系统主要依赖于经验性的运动估计来决定压缩比例,但如何为不同复杂度的视频确定理论上最优的token长度仍然是一个开放性问题。这需要更深入的理论研究来指导实践。

另一个挑战是计算效率的进一步优化。虽然Transformer架构提供了良好的灵活性,但其计算复杂度相比传统的CNN方法仍然较高。如何在保持性能的同时降低计算成本,特别是在移动设备等资源受限的环境中实现高效运行,仍需要更多的工程优化工作。

研究团队还提出了一个有趣的未来方向:开发一个集成重建和条件生成任务的统一像素空间扩散解码器。这种设计能够消除对单独潜在扩散模型的需求,朝着真正端到端、高效且语义对齐的视频基础模型迈进。

在更广阔的视角下,One-DVA代表了视频处理技术向着更加智能化和自适应方向发展的重要一步。它不仅解决了传统方法的固有限制,还为未来的多模态内容处理奠定了技术基础。随着相关技术的不断成熟,我们有理由期待看到更多基于这一思路的创新应用出现在日常生活中。

说到底,One-DVA的核心价值在于它改变了我们对视频压缩的思考方式。从"一刀切"的固定处理转向"量体裁衣"的智能适配,这不仅仅是技术进步,更是一种思维方式的革新。在数字内容爆炸性增长的今天,这种能够根据内容特性进行智能优化的技术将变得越来越重要。对于普通用户而言,这意味着更快的上传下载速度、更少的存储空间占用,以及更好的视频质量体验。

Q&A

Q1:One-DVA是什么,它和传统视频压缩有什么不同?

A:One-DVA是一维扩散视频自编码器,由香港大学等机构开发的新型视频处理技术。它最大的不同在于能够根据视频内容的复杂程度智能调整压缩比例,简单视频用更少空间存储,复杂视频保留更多细节,而不是像传统方法那样对所有视频使用相同的压缩率。

Q2:One-DVA的扩散式解码器是如何工作的?

A:扩散式解码器就像一个有创造力的艺术家,它不是机械地按照固定程序重建视频,而是使用扩散过程逐步生成视频画面。当压缩时丢失了一些细节信息,这个解码器能够智能地"脑补"缺失的部分,就像从素描逐步添加色彩和纹理形成完整画作一样。

Q3:普通用户什么时候能体验到One-DVA技术?

A:目前One-DVA还处于学术研究阶段,需要进一步的工程优化才能实用化。预计未来几年内,这项技术可能会首先在视频流媒体服务、视频会议软件或手机视频处理应用中出现,帮助用户实现更高效的视频存储和传输。