用“下一帧+多尺度”预测重新定义AI视频生成|尺度|帧内|编码器

近年来,AI生成视频的技术突飞猛进。当你在网上看到那些由AI创作的逼真视频时,背后的技术原理其实可以用一个简单的比喻来理解。传统的视频生成模型就像是用橡皮擦慢慢擦去一张模糊图片上的噪点,逐渐显现出清晰的画面——这就是所谓的"扩散模型"。这种方法效果很好,但速度很慢,就像你要反复擦拭很多次才能看清图片内容。

百度ERNIE团队这次提出的VideoAR则采用了完全不同的思路。他们的方法更像是搭积木:先搭建一个粗糙的框架,然后逐层添加细节,同时一帧接一帧地向前推进。这种方式不仅速度快了十几倍,生成的视频质量还达到了与那些体积庞大的扩散模型相当的水平。

研究团队在视频生成领域面临着三个核心难题。首先是如何协调空间和时间的建模。视频既包含每一帧内部的画面细节,又包含帧与帧之间的运动变化,这两者的建模逻辑截然不同。其次是误差累积问题。当模型逐帧生成视频时,前面帧的微小错误会像滚雪球一样越滚越大,导致后面的帧质量急剧下降。最后是对视频时长和动态的控制能力有限,难以灵活调整生成视频的长度和运动幅度。

为了解决这些问题,VideoAR设计了一套精巧的机制。研究团队将视频生成过程比作建造一座大楼:首先用3D多尺度编码器将原始视频压缩成不同精细度的"建筑图纸",然后Transformer模型像施工队一样,按照"先搭框架、再填细节"的顺序,一层层、一帧帧地完成整栋大楼的建造。这种设计巧妙地将帧内的空间细节生成与帧间的时间连续性维护分离开来,各司其职又相互配合。

VideoAR的"三维建筑师":把视频压缩成多层图纸

VideoAR的第一个关键组件是视频编码器,它的作用就像是将一段完整视频转化成一套完整的建筑图纸。这套图纸不是平面的,而是三维的——既包含每一帧的空间信息,又捕捉了时间维度上的运动变化。

研究团队采用了一种叫做"因果3D卷积"的技术。这里的"因果"是个关键词,意思是在处理当前帧时,编码器只能看到之前的帧,而看不到未来的帧。这就像你在看一部电影时,只能根据已经播放的内容来理解剧情,而无法预知后面会发生什么。这种设计确保了模型在生成视频时遵循真实的时间流动规律。

更巧妙的是,这个编码器采用了"多尺度"设计。回到建筑图纸的比喻,这就像是准备了多套不同精细度的图纸:有展示整体结构的粗略草图,也有标注每个房间细节的精密图纸。具体来说,编码器将视频压缩到原始大小的十六分之一,然后通过量化器将这些压缩后的特征分解成多个不同分辨率的"残差图"。第一层残差图最粗糙,只包含最基本的信息;随后的每一层都在前一层的基础上增加更多细节,就像给建筑图纸添加更精细的标注一样。

为了让训练更高效,研究团队采用了一种"3D膨胀"策略。他们先用一个已经训练好的图像编码器(专门处理静态图片的模型)作为起点,然后巧妙地将其扩展到视频领域。这就像是让一个擅长画静物画的画家学习画动画——他原本的绘画技巧依然有用,只需要额外学习如何表现运动即可。这种方法大大加快了训练速度,同时保证了模型从一开始就具备良好的空间理解能力。

编码器的训练使用了多个互补的目标函数。重建损失确保解码后的视频与原始视频尽可能相似,感知损失保证视觉上的自然性,对抗损失通过判别器来提升生成质量,承诺损失稳定量化过程,熵惩罚鼓励模型充分利用所有可用的离散编码。这些损失函数协同工作,就像是用多把尺子从不同角度衡量建筑图纸的质量,确保最终得到既精确又实用的编码表示。

"逐帧搭建+逐层加工"的生成策略

有了压缩后的多层"图纸",接下来就是生成视频的核心过程。VideoAR采用的是一种自回归建模方式,可以理解为"边看前面的内容边创作后面的内容"。具体来说,模型在生成第t帧时,会同时参考两类信息:一是之前所有帧的完整内容,二是当前帧已经生成的粗糙层次。

这个过程就像盖房子。施工队在建造第二层楼时,既要参考已经建好的一层楼的结构(时间上的连续性),又要遵循"先搭骨架、再填墙壁、最后做装修"的顺序(空间上的从粗到细)。数学上,模型预测第t帧第k个尺度的残差,条件是前面所有帧的所有尺度残差、当前帧前面k-1个尺度的残差,以及输入的文本提示。

为了启动整个生成过程,第一帧的第一个尺度特征被设置为一个特殊的"开始"标记,这就像给施工队一个起始点。从第二帧开始,每一帧的初始特征都从前一帧的累积特征中继承而来,从而注入了时间上的连续性。这种设计确保了相邻帧之间的平滑过渡,避免了视频中出现突兀的跳变。

多尺度时间位置编码:让模型理解"什么时候、在哪里"

在处理视频这种同时包含时间和空间维度的数据时,模型需要明确知道每个信息块处于什么位置。VideoAR为此设计了"多尺度时间RoPE"(旋转位置编码)。这个名字听起来很技术,其实原理可以用坐标系统来理解。

传统的位置编码只告诉模型"这是第几个词",但视频需要更复杂的定位信息。VideoAR的位置编码同时包含三个维度:时间(这是第几帧)、高度(在画面的上下哪个位置)、宽度(在画面的左右哪个位置)。就像给每个信息块标注了一个三维坐标(t, h, w),模型因此能够清楚地理解每个部分在视频中的确切位置。

更进一步,由于VideoAR采用了多尺度建模,同一个空间位置在不同尺度层会有不同的含义。研究团队为每个尺度添加了一个可学习的"尺度嵌入"向量,就像给不同精细度的图纸贴上不同颜色的标签,帮助模型区分当前处理的是粗略结构还是精细细节。这种设计使得模型在从粗到细的生成过程中,能够准确把握每一步应该关注哪些信息。

对于文本提示词,VideoAR采用了一个巧妙的处理方式。所有文本词元被赋予相同的时间、高度和宽度索引,这确保了文本编码与原生RoPE保持兼容,使得模型可以无缝地处理多模态输入(文本+视频)。这就像是给文本提示一个特殊的"全局坐标",让它能够影响整个视频的生成,而不仅仅局限于某一帧或某个区域。

对抗"雪崩效应"的两大法宝

自回归模型最大的敌人是误差累积。就像多米诺骨牌,第一张牌的微小偏差会导致后面所有牌的倒塌方向都发生偏移,而且偏移越来越大。在视频生成中,第一帧的小错误会在后续帧中被放大,最终导致视频质量崩溃。VideoAR用两个创新策略来对抗这种"雪崽效应"。

第一个策略叫做"跨帧误差修正"。研究团队观察到,随着时间推进,误差累积会越来越严重,所以他们设计了一种"时间依赖的扰动注入"机制。在训练时,模型会故意在输入数据中加入噪声,而且这个噪声的强度随着帧数的增加而递增。这就像是让学生做练习题时,故意在题目中加入一些错误,而且越往后错误越多,从而训练学生在复杂条件下也能找到正确答案的能力。

更巧妙的是"跨帧误差继承"机制。由于每一帧最后一层的误差必然会传递到下一帧的第一层,研究团队特意让下一帧第一层的扰动强度在上一帧最后一层扰动强度之上的范围内随机选择。这种设计迫使模型在每一帧的最开始就学会修正从前一帧继承来的错误,从而大大增强了时间鲁棒性。数学上,每一帧的扰动概率随时间线性增长,而每一帧初始尺度的扰动概率则在前一帧最终尺度扰动概率的基础上进一步提升。

第二个策略叫做"随机帧掩码"。这个方法的核心思想是防止模型过度依赖前面的帧。在训练时,模型不是看到所有历史帧,而是只看到一个"因果滑动窗口"内随机选择的部分帧。具体来说,对于生成第t帧,模型会在前面w帧的范围内,以一定概率随机选择一些帧作为参考,而不是机械地使用所有前序帧。这就像是让学生在考试时,只能参考笔记本上的部分内容,从而迫使他们真正理解知识而不是死记硬背。这种策略有效地削弱了对遥远历史帧的过度依赖,同时保留了必要的时间上下文,避免了过度记忆导致的泛化能力下降。

分阶段训练:从简单到复杂的学习路径

VideoAR的训练采用了一种"多阶段渐进"策略,这就像是让学生从简单题目开始,逐步过渡到复杂问题。整个训练分为三个阶段,每个阶段关注不同的能力培养。

第一阶段是联合预训练。研究团队同时使用大规模图像数据集和低分辨率视频数据集进行训练。这个阶段的目标是让模型掌握基础的空间-时间表示能力。由于使用了图像数据,模型能够快速学习到丰富的空间细节;而视频数据则帮助模型初步理解运动和时间连续性。这种混合训练策略在保证训练效率的同时,为模型打下了坚实的基础。

第二阶段是高分辨率强化。在这个阶段,研究团队将训练数据切换到更高分辨率的图像和视频。模型在第一阶段已经掌握了基本的生成能力,现在需要进一步学习如何生成精细的视觉细节和更连贯的时间动态。这就像是学生在掌握了基础知识后,开始学习更高级的技巧和细节处理。

第三阶段是长视频微调。这个阶段只使用高分辨率的视频数据集,专注于训练模型生成长时间、高质量的视频。模型需要学会捕捉扩展的运动动态和长程的时间依赖关系。这是最具挑战性的阶段,因为误差累积问题在长视频中尤为严重,前面提到的跨帧误差修正和随机帧掩码策略在这个阶段发挥了关键作用。

整个训练过程使用了AdamW优化器,配合余弦学习率调度。训练目标是一个比特级的交叉熵损失,即模型预测的残差图与真实残差图之间的差异。为了提高计算效率,研究团队还采用了混合精度训练和梯度检查点技术,这些技术手段使得即使在有限的计算资源下,也能训练出大规模的高质量模型。

灵活调控:让视频生成更可控

在实际应用中,用户往往希望对生成的视频有更精细的控制。VideoAR为此设计了"时空自适应分类器引导"机制。这个机制的核心是在生成过程中动态调整模型对文本提示的遵循强度。

研究团队发现,较大的引导系数会让生成的视频具有更好的视觉质量和更强的动态变化,但可能损失一些多样性;而较小的引导系数则能产生更稳定的时间过渡和更大的采样多样性,但视觉质量可能略有下降。基于这个观察,VideoAR设计了一套自适应调度策略,在不同的尺度层和不同的时间点使用不同的引导强度。

具体来说,对于UCF-101这样的动作识别数据集,VideoAR在每一帧的第一个尺度逐渐增加引导强度(从1到5),然后在帧内沿着尺度维度线性增加到10。这种策略在保证采样多样性的同时,也确保了视觉质量。而对于真实世界的文本到视频生成任务,VideoAR则采用相反的策略,沿着时间和空间维度同时降低引导强度(从5到3),以维持更强的空间一致性。这种灵活的调控机制让用户可以根据具体需求在质量、多样性和一致性之间找到最佳平衡点。

此外,VideoAR作为自回归模型,天然支持图像到视频和视频续写功能,无需额外的微调。给定一张图像或一段视频,模型可以直接在此基础上生成后续帧,实现了单次或多次连续生成,最终能够产生超过20秒的长视频。这种能力对于实际应用场景非常有价值,比如根据分镜图生成完整的视频片段,或者将短视频自动扩展为长视频。

实验验证:数字背后的突破

VideoAR的性能通过严格的实验得到了验证。研究团队在多个基准数据集上进行了测试,包括经典的UCF-101数据集和更具挑战性的真实世界视频生成基准VBench。评估指标涵盖了重建质量(rFVD)和生成质量(gFVD、VBench分数)两个维度。

在视频重建任务上,VideoAR-L编码器采用了激进的16倍空间压缩率,将视频压缩成5×8×8的紧凑表示。这意味着相比其他先进的视频编码器如MAGVIT和OmniTokenizer,VideoAR的序列长度减少了四分之三。然而即便如此大幅度的压缩,VideoAR依然保持了出色的重建质量,rFVD得分为61,与MAGVIT的58相当。这个结果充分说明了VideoAR编码器在捕捉时空结构方面的高效性。

在UCF-101的类条件生成任务上,VideoAR树立了新的标杆。拥有20亿参数的VideoAR-XL模型达到了88.6的FVD得分,相比之前最好的自回归模型PAR-4×的99.5有了显著提升(降低了11%)。即使是较小的926M参数版本VideoAR-L,也以90.3的FVD超越了PAR-4×。更令人印象深刻的是推理速度:VideoAR-L只需30个解码步骤就能生成一段视频,耗时仅0.86秒,相比PAR-4×实现了超过13倍的加速。这种质量和速度的双重提升直接来源于VideoAR的架构创新——帧内视觉自回归保持了空间细节的高保真度,而跨帧误差修正机制则确保了时间连续性。

在更具挑战性的真实世界视频生成任务上,VideoAR-4B模型在VBench上达到了81.74的总分,这个成绩与参数量大得多的模型相当甚至更好。比如Step-Video-T2V有300亿参数,Hunyuan-Video有130亿参数,而VideoAR只有40亿参数。更值得注意的是细分指标的表现。VideoAR在语义得分上达到了77.15的新纪录,超越了所有竞争对手,这说明它在文本到视频对齐方面具有卓越的能力。在美学质量、物体类别识别、多物体生成等方面,VideoAR也取得了领先成绩。虽然在某些通用视觉质量指标上与最顶尖的扩散模型还有微小差距,但考虑到VideoAR的参数规模和推理速度优势,这已经是非常了不起的成就。

研究团队还进行了详细的消融实验,逐一验证了各个组件的贡献。实验表明,多尺度时间RoPE将基线模型的FVD从96.04降至94.95,说明这种位置编码确实增强了模型对时空关系的理解。在此基础上加入时间依赖扰动后,FVD进一步降至93.57,表明这种训练策略有效提高了模型的鲁棒性。最后,加入误差继承机制后,完整的VideoAR模型达到了92.50的最佳FVD。随机帧掩码的消融实验在更大规模的真实数据集上进行,结果显示VBench总分从76.22提升到77.00,再次证明了这个策略的有效性。这些消融实验共同证明了VideoAR各个组件的设计都是经过深思熟虑且相互协作的。

与同期工作的对比:各有千秋的技术路线

在VideoAR发表的同时,另一个团队也提出了名为InfinityStar的视频生成模型。虽然两者都采用了自回归建模,但技术路线存在显著差异,这些差异反映了研究团队在面对相同挑战时做出的不同选择。

在时空建模范式上,InfinityStar采用3D-VAR形式,每个生成块操作的是一个时间窗口内的多帧。这种方法更接近传统的3D卷积思想,将时间维度和空间维度统一处理。相比之下,VideoAR选择了"下一帧预测结合帧内多尺度建模"的方案,将时间建模和空间建模明确分离。VideoAR的这种设计使得帧内的空间细节可以通过结构化的从粗到细生成来精细刻画,而帧间的时间连续性则通过显式的逐帧预测来维护。两种方法各有优劣:3D-VAR可能在短时间窗口内有更强的时空耦合能力,而VideoAR的分离式设计则在长时间生成和推理效率上更具优势。

在训练策略上,InfinityStar采用了从80亿参数规模的图像生成基础模型进行微调的路线,这使得模型从一开始就拥有强大的视觉先验知识。VideoAR则选择了从头开始训练,使用联合的低分辨率图像-视频数据集,专注于学习统一的时空表示。从头训练的好处是模型的所有组件都是针对视频生成任务专门优化的,不存在图像模型迁移过来可能产生的不匹配问题,但代价是需要更多的训练资源和时间。

在训练规模和序列长度方面,VideoAR由于实际训练资源的限制,目前主要在相对较短的序列长度下进行训练,因此在超长时间连贯性的探索上还不够充分。然而研究团队强调,VideoAR的框架本身对序列长度没有内在限制,完全兼容更长上下文的训练,随着训练规模和序列长度的增加,预期会在长期一致性上获得进一步提升。这种架构上的前瞻性设计为未来的扩展留下了充足的空间。

局限性与未来展望

尽管VideoAR取得了令人瞩目的成绩,研究团队也坦诚地指出了当前模型的局限性,这些局限性为未来的改进指明了方向。

首先是分辨率和帧率的限制。当前的VideoAR-4B生成的视频分辨率为384×672,帧率为每秒8帧,这距离商业应用的标准规格(通常需要每秒24帧和720P分辨率)还有差距。这个限制主要源于训练时的计算资源约束,限制了最大序列长度。此外,采用完整的自回归注意力掩码导致了较高的计算开销。未来的工作将致力于扩展训练序列长度,并探索更稀疏的注意力机制,以实现高分辨率、流畅的视频生成。

其次是高动态场景下的漂移问题。在实验中,研究团队观察到VideoAR-4B在处理高动态场景(如复杂的人体动作)时,往往会产生运动漂移现象。这个问题根源于自回归模型固有的误差传播特性。尽管跨帧误差修正和随机帧掩码已经在很大程度上缓解了这个问题,但在极端情况下仍然存在。未来的研究将考虑通过整合推理时的迭代回滚和强化学习算法来进一步提升模型在高动态场景下的表现。

VideoAR的出现标志着自回归建模在视频生成领域迈出了关键的一步。它不仅证明了自回归方法可以在保持高质量的同时大幅提升效率,还为未来的研究提供了一个坚实的基础框架。随着计算资源的增加和技术的进一步优化,我们有理由相信自回归视频生成将成为与扩散模型并驾齐驱的主流技术路线。对于普通用户而言,这意味着未来的AI视频生成工具将变得更快、更便宜、更易用,让更多人能够用AI创作属于自己的视频内容。

本文来自至顶AI实验室，一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破，挖掘其潜在的应用场景，为企业和个人提供切实可行的解决方案。

Q&A

Q1:VideoAR与传统扩散模型在视频生成上有什么区别?

A:传统扩散模型就像用橡皮擦慢慢擦去模糊图片上的噪点来显现画面,需要反复迭代很多次,速度慢但效果好。VideoAR采用自回归方法,更像是搭积木:先搭建粗糙框架,然后逐层添加细节,同时一帧接一帧向前推进。这种方式速度快了十几倍,在保持高质量的同时大幅提升了生成效率。

Q2:VideoAR如何解决自回归模型的误差累积问题?

A:VideoAR使用了两个创新策略。第一个是跨帧误差修正,在训练时故意注入随时间递增的噪声,并让下一帧学会修正从上一帧继承的错误。第二个是随机帧掩码,让模型只参考部分历史帧而不是全部,避免过度依赖前面的内容。这两个策略协同工作,有效缓解了误差像雪球一样越滚越大的问题。

Q3:VideoAR在实际应用中的性能表现如何?

A:VideoAR在标准测试集上树立了新标杆。在UCF-101数据集上,VideoAR-XL的FVD得分达到88.6,比之前最好的自回归模型提升了11%,推理速度快了13倍以上。在真实世界视频生成任务VBench上,40亿参数的VideoAR达到81.74分,性能可与参数量大数倍的扩散模型相媲美,在语义对齐方面更是达到了新纪录。