打开网易新闻 查看精彩图片

这项由加州大学伯克利分校、麻省理工学院、英伟达、亚马逊以及德克萨斯大学奥斯汀分校联合开展的研究,于2026年2月发表在预印本平台arXiv上,论文编号为arXiv:2602.02958v1。对于想要深入了解这项技术的读者,可以通过该编号查询完整论文。

说起AI生成视频,现在的技术已经能制作出相当逼真的短片了。但如果你想让AI生成一段较长的视频,比如几分钟甚至更长,就会遇到一个令人头疼的问题。这就像你想在手机上同时运行几十个大型游戏一样,很快就会因为内存不足而卡死。

当前主流的AI视频生成系统在创建长视频时面临着一个关键瓶颈——内存消耗。以目前先进的LongCat-Video模型为例,仅仅生成5秒钟的480p视频就需要大约34GB的内存,这已经超出了单张RTX 5090显卡的容量。这种内存限制不仅影响了普通用户的使用体验,更重要的是限制了AI在长视频生成方面的能力发挥。

这个问题的根源在于自回归视频生成模型的工作原理。与传统的双向注意力模型不同,自回归模型按照时间顺序逐帧生成视频内容,每一帧都需要参考之前生成的所有历史信息。这些历史信息被存储在一个叫做KV缓存的内存空间中,随着视频长度的增加,这个缓存会呈线性增长,最终占据绝大部分可用内存。

研究团队发现了一个有趣的现象:视频内容具有强烈的时空冗余性。相邻的视频帧往往包含大量相似的信息,空间上邻近的区域也表现出高度的相似性。这种冗余性为压缩技术提供了理论基础。基于这一观察,研究人员开发了名为Quant VideoGen的创新框架,专门用于解决自回归视频模型的内存瓶颈问题。

一、揭开KV缓存内存占用的秘密

要理解这个问题,我们可以把AI生成视频的过程比作一位画家创作长卷画。传统的画家可能会一次性构思整幅画面,但自回归AI更像是按顺序作画,每画一个部分都需要参考之前画过的所有内容。

在自回归视频生成中,AI需要维护一个"记忆库"来存储之前生成的所有信息,这个记忆库就是KV缓存。每当AI生成新的一帧,都需要查阅这个记忆库来确保新内容与之前的内容保持一致。问题在于,这个记忆库会随着视频长度的增加而急剧膨胀。

研究团队通过详细分析发现,对于一个具有L层结构、隐藏维度为d的模型,存储分辨率为H×W、时长为T的视频所需的KV缓存内存计算公式为:内存需求 = 2 × L × (H×W×T) × d × 每个数值的字节数。这个公式清晰地展示了为什么长视频生成如此消耗内存。

以LongCat-Video为例,生成一段5秒的480p视频需要处理约38,000个潜在标记,对应的KV缓存占用约34GB内存,而模型参数本身只占用27GB。这意味着在长视频生成过程中,KV缓存已经成为主要的内存消耗源,而非模型本身。

更糟糕的是,当系统内存不足时,许多现有方案会采用滑动窗口机制,只保留最近几帧的信息。虽然这能缓解内存压力,但会导致生成的长视频出现明显的质量下降和内容不一致问题。就像一个失去部分记忆的画家,无法保证作品前后的连贯性。

二、视频数据的特殊挑战

尝试将现有的文本模型优化技术直接应用到视频模型上,结果往往并不理想。这主要是因为视频数据具有与文本截然不同的统计特性。

文本数据相对来说比较"规整",不同位置的词汇在数值范围上相对均匀。但视频数据却呈现出高度的异质性。不同的视频区域可能代表完全不同的内容——有些区域是静止的背景,有些区域是快速移动的物体,有些区域是亮度较高的天空,有些则是阴暗的角落。这种多样性导致视频数据在数值分布上极不均匀。

研究团队观察到,在视频模型的KV缓存中,数值范围可能相差几个数量级。键缓存的最大值约为100倍量级,而值缓存的最大值可达1000倍量级。更复杂的是,这种数值差异在不同的通道维度上表现不一致——某个通道在一些标记中可能是异常值,但在其他标记中却是正常值。

这种不规律的分布模式使传统的量化方法难以发挥效果。量化技术的核心原理是将浮点数映射到较低精度的整数空间,但当数据分布极不均匀时,量化误差会显著增大。特别是当存在极值时,整个量化范围会被这些极值"撑开",导致大部分正常数值的精度损失。

三、从视频冗余中寻找解决方案

研究团队的突破性洞察来自于对视频内容本质特性的深入理解。视频作为一种媒体形式,天然具有强烈的时空冗余性。这种冗余性表现在两个维度:时间维度上,相邻帧之间往往只有微小变化;空间维度上,相邻区域通常表现出相似的特征。

通过定量分析,研究人员发现,在固定空间位置上,相邻帧的标记往往保持高度相似,因为大部分场景要素在短时间内是静态或缓慢变化的。同样,在空间维度上,当两个相邻区域在像素级别表现出相似性时,它们对应的潜在标记通常也具有很高的余弦相似度。

这种观察启发了语义感知平滑技术的设计理念。既然相似的标记在数值上也趋向相似,那么可以将这些相似的标记归为一组,通过组内共同特征的提取来降低数据的复杂度。具体而言,研究团队使用k-means聚类算法将标记按照相似性进行分组,然后计算每组的平均值作为该组的代表(质心)。

关键的创新在于残差计算步骤。对于每个组内的标记,研究团队不再直接量化原始数值,而是先减去组内的质心,得到残差值后再进行量化。这个看似简单的操作带来了显著的效果:由于组内标记原本就比较相似,减去公共的质心后,剩余的残差值不仅数值范围大幅缩小,而且分布更加均匀,非常适合低精度量化。

实验数据证实了这种方法的有效性。通过语义感知平滑技术,键缓存的量化误差降低了约6.9倍,值缓存的量化误差降低了约2.6倍。这种改善在所有测试的精度选择下都得到了验证。

四、渐进式残差量化的进一步优化

受到流媒体视频编码技术的启发,研究团队进一步开发了渐进式残差量化方法。流媒体编码通常采用多尺度表示,从粗粒度的整体结构逐步细化到高频细节。这种思路完美契合了视频内容的层次化特性。

渐进式残差量化的核心思想是将量化过程分解为多个阶段,每个阶段都专注于捕获不同粒度的信息。在第一阶段,算法捕获最重要的语义结构和主要运动模式;在后续阶段,算法逐步关注更精细的纹理细节和高频变化。

具体实现上,算法从初始输入开始,通过多次迭代应用语义感知平滑技术。设初始残差为R(0) = X,总共进行T个阶段的处理。在第t个阶段,算法对前一阶段的残差R(t-1)应用语义感知平滑,得到新的残差R(t)、质心C(t)和分配向量π(t)。经过T个阶段后,最终的残差R(T)具有更小的动态范围和更均匀的分布,极其适合低精度量化。

这种多阶段设计的优势在于每个阶段都能专注于减少特定类型的量化误差。第一阶段通常能够实现最显著的误差降低,约5.83倍的改善,后续阶段虽然改善幅度递减,但仍能提供至少1.10倍的额外优化。

重构过程采用逆向操作。从最终量化的输出开始,算法逐步恢复每个阶段的信息,最终重建原始数据。这个过程确保了压缩的可逆性,同时通过多阶段的精细化减少了累积误差。

五、系统层面的协同优化

为了确保这项技术在实际应用中的可行性,研究团队还进行了多项系统级优化。这些优化确保了新方法不会因为额外的计算开销而抵消内存节省的优势。

在k-means聚类优化方面,研究团队引入了流式质心缓存策略。由于视频生成是一个连续过程,相邻时间段的内容往往具有相似的聚类模式。通过缓存上一个视频块的聚类结果,并用其初始化新块的聚类过程,可以显著减少迭代次数,实现约3倍的加速效果。

在内核优化方面,团队开发了融合的反量化内核,能够在单次操作中完成张量反量化和质心重建。这种融合设计避免了中间结果的重复内存读写,将计算结果直接存储在寄存器中,大幅提升了执行效率。

实施细节上,系统采用了多项工程优化措施。使用FP8 E4M3格式存储分组缩放因子以减少开销;采用pre-RoPE键缓存策略获得更适合量化的键分布;使用uint8格式存储分配向量以进一步节省内存。

这些系统优化的累积效果是,整个框架在实现大幅内存节省的同时,端到端延迟开销控制在4%以内。在LongCat模型上,整体生成时间仅增加2.1%;在HY-World模型上增加1.5%;在Self-Forcing模型上增加4.3%。这种轻微的性能开销完全可以接受,特别是考虑到所获得的巨大内存节省。

六、实验验证与性能表现

研究团队在多个最新的自回归视频生成模型上进行了广泛的实验验证,包括LongCat-Video-13B、HY-WorldPlay-8B和Self-Forcing-Wan-1.3B。实验涵盖了480p分辨率的长视频生成任务,全面评估了压缩效果和视觉质量。

在压缩比方面,Quant VideoGen展现出卓越的性能。QVG-Pro配置能够实现4.97倍到5.20倍的压缩比,同时保持极高的视觉保真度;标准QVG配置则能达到6.94倍到7.05倍的压缩比,在激进压缩的情况下仍然维持近乎无损的视频质量。

具体的质量指标表现令人印象深刻。在LongCat-Video-13B的INT2量化设置下,QVG-Pro达到30.376的PSNR值、0.935的SSIM值和0.048的LPIPS值,而QVG即便在6.94倍压缩比下仍能达到28.716的PSNR值。在HY-WorldPlay-8B上,类似的优异表现得到了重现,QVG-Pro在5.20倍压缩比下实现31.562的PSNR值。

与现有基线方法的对比显示出显著优势。传统的Round-to-Nearest量化方法在6.40倍压缩比下,LongCat-Video的PSNR仅为20.872,而QVG在相近的压缩比下能够达到28.716。KIVI和QuaRot等现有方法同样表现不佳,在激进压缩设置下出现明显的质量劣化。

在长视频生成能力测试中,研究团队特别关注了模型在扩展生成过程中的质量保持能力。实验结果显示,当生成长度扩展到700帧时,QVG和QVG-Pro都能维持近乎无损的图像质量分数,而其他基线方法在约100帧后就出现急剧的质量下降。这证明了更大的KV缓存容量对于保持长期一致性的关键作用。

内存使用分析揭示了压缩效果的具体来源。在QVG的内存占用构成中,量化值占据65%以上的比重,分配向量、质心和缩放因子分别占据较小比例。这种分布表明压缩策略的有效性,主要的内存节省确实来自于数值压缩而非元数据优化。

七、技术参数的敏感性分析

为了深入理解方法的工作机制,研究团队进行了详细的参数敏感性分析。这些分析有助于理解不同设计选择对最终性能的影响,也为实际应用提供了调优指导。

在渐进式量化阶段数量的分析中,实验显示第一阶段能够提供最显著的MSE降低效果,约5.83倍的改善。后续阶段虽然收益递减,但仍然提供有价值的优化。第二阶段通常能额外提供1.39倍的改善,第三阶段提供1.15倍改善。这种递减模式符合预期,因为主要的冗余在初始阶段就被捕获了。

量化分组大小的选择体现了质量与压缩率之间的权衡。较大的分组大小(如64)能够实现更高的压缩比,但相应地会带来质量损失;较小的分组大小(如16)则能保证最佳质量,但压缩效果相对有限。实验数据显示,64的分组大小在整体权衡上表现最佳,而16的分组大小适合对质量要求极高的应用场景。

质心数量的设置同样影响着最终效果。研究团队将质心数量设为256,使用uint8格式存储分配向量。这个选择在内存开销和聚类精度之间找到了良好平衡。过少的质心会导致聚类精度不足,过多则会增加存储开销。

时间窗口大小的选择反映了时间局部性与全局一致性的权衡。较小的时间窗口能够更好地利用短期相关性,但可能错失长期模式;较大的窗口则相反。实验表明,选择包含几帧内容的适中窗口大小效果最佳。

八、实际应用的重大突破

这项技术的实际意义远超理论创新。最直接的影响是硬件门槛的大幅降低。原本需要高端服务器级别硬件才能运行的长视频生成任务,现在可以在消费级GPU上实现。

以HY-WorldPlay-8B为例,该模型原本无法在单张RTX 4090上运行长视频生成任务,因为内存需求超出了硬件限制。通过Quant VideoGen技术,现在不仅能够在RTX 4090上运行,还能达到超过29的PSNR值,这在之前是完全不可能的。

对于已经拥有高端硬件的用户,这项技术同样具有重要价值。在相同的硬件配置下,更高效的内存利用意味着能够生成更长的视频序列,或者在相同长度下获得更好的质量。这直接扩展了AI视频生成的应用边界。

在实时应用方面,这项技术为流式视频生成、交互式内容创建和实时世界模型等新兴应用场景提供了技术基础。当内存不再是瓶颈时,开发者可以专注于算法创新和用户体验优化,而不用担心资源限制。

成本效益方面的改善也很显著。对于商业应用而言,硬件成本的降低直接转化为运营成本的节省。这使得原本只有大型科技公司才能承担的视频生成服务,现在中小企业甚至个人开发者也能够部署。

九、技术的局限性与未来发展

虽然Quant VideoGen展现出卓越的性能,但研究团队也诚实地指出了当前技术的局限性。首先,虽然大幅减少了内存占用,但仍然引入了轻微的计算开销。在某些对延迟极度敏感的应用中,这种开销可能需要进一步优化。

其次,当前的方法主要针对自回归视频模型设计,对于其他类型的视频生成架构,效果可能有所不同。随着视频生成技术的快速发展,可能需要针对新架构进行相应的适配和优化。

质量与压缩比的权衡仍然存在。虽然QVG在这个平衡上已经取得了显著突破,但在极端压缩场景下,质量损失仍然不可避免。对于某些对视觉质量要求极高的专业应用,可能需要选择相对保守的压缩设置。

研究团队也指出了几个有前景的发展方向。首先是自适应压缩策略的开发,根据视频内容的复杂度和运动强度动态调整压缩参数。静态场景可以采用更激进的压缩,而复杂运动场景则使用保守设置。

另一个方向是与硬件协同设计的优化。随着专门为AI推理设计的硬件不断发展,压缩算法可以与硬件特性更紧密结合,实现更高的效率。

长期来看,这项技术可能催生新的视频生成范式。当内存限制得到根本缓解后,研究者可以探索更复杂的时序建模方法,开发出质量更高、一致性更强的长视频生成系统。

说到底,Quant VideoGen代表了AI视频生成领域一个重要的工程突破。它不仅解决了当前技术面临的实际瓶颈,更为未来的创新奠定了基础。当我们不再被内存限制束缚时,AI创造长视频内容的可能性将得到极大扩展,这或许会开启视频内容创作的新时代。

对于普通用户而言,这意味着更便宜、更易用的AI视频生成工具;对于开发者而言,这提供了更大的创新空间;对于整个行业而言,这可能成为推动AI视频技术大规模普及的关键技术之一。随着这项技术的进一步成熟和应用,我们有理由期待在不久的将来看到更多令人惊艳的AI视频应用。

Q&A

Q1:Quant VideoGen是什么技术?

A:Quant VideoGen是一种专门为AI视频生成模型设计的内存优化技术。它通过智能压缩视频生成过程中的"记忆库"(KV缓存),能将内存占用降低7倍,同时几乎不影响视频质量。这让原本需要高端服务器才能运行的长视频生成任务,现在在普通消费级GPU上就能完成。

Q2:这项技术如何解决AI视频生成的内存问题?

A:技术的核心是利用视频内容的重复性特征。研究团队发现相邻的视频帧和空间区域往往很相似,于是开发了"语义感知平滑"方法,将相似的内容分组并提取共同特征,然后只保存差异部分。这样大幅减少了需要存储的数据量,就像压缩文件一样,但专门针对视频数据优化。

Q3:普通用户能从这项技术中获得什么好处?

A:最直接的好处是硬件门槛大幅降低。以前需要专业级显卡才能生成长视频,现在用游戏显卡就能实现。这意味着AI视频生成工具的成本会下降,普通人也能更容易地创作高质量的AI视频。同时,相同硬件条件下能生成更长、质量更好的视频内容。