提到AI视频生成,大家会想到谁…,Sora,Runway Gen-3,Veo2.0,Ray2…

在近期MagicArena平台的万人评测中,字节团队前不久推出的Seaweed-7B 以1047 ELO 的评分超越了上述知名的主流AI视频模型,尤其是远超Sora的903 ELO评分。

除了客观的评分之外,我们可以通过下面几个Demo来直观感受一下Seaweed-7B的强悍。

Seaweed根据提示词生成各种类型人物角色,尤其在人物动作,手势,情绪方面表现出色。

Seaweed可以通过定义的轨迹来模拟精确的相机控制,不仅提供了增强的创意方向,还为用户提供了探索模拟世界的互动方式。

Seaweed能够产生一致的、多镜头、长篇故事,保持场景和镜头的连续性。用户可以为总体叙事提供全局文本描述,并为每个镜头提供精细的文本描述。

很难想象这样强悍的一款视频生成模型的参数只有7B。

传统意义上,模型企业倾向于训练拥有海量参数的大模型,希望通过高昂的计算资源成本,换取在下游任务上的强大泛化能力。

而Seaweed-7B却打破了这一思路的惯性思维:它以中等规模模型为基础,注入了高效的设计与优化策略,并在视频生成领域取得了可与大规模模型相媲美,甚至部分方面超越的效果。

字节Seed团队近期发布了Seaweed-7B的技术论文,揭示用相对较少的训练资源(约66.5万小时H100 GPU,相当于1000张H100并行训练27.7天)实现了与14B、13B甚至更大模型比肩的效果。

Seed团队通过精妙的网络结构、数据处理算法以及多阶段训练策略,使得该模型在文本到视频(text-to-video)和图像到视频(image-to-video)等关键方向上呈现出了相当强劲的性能。

在训练成本飙升、推理效率堪忧的当下,Seaweed-7B究竟是如何在保证生成质量的同时有效地降低算力投入?

它在方法上做了哪些创新,能为研究者或产业工程师带来何种启示?

是否存在尚待优化或突破的方面?

带着这些疑问,我们结合潜在应用场景,一起来探讨这一成果对未来视频生成领域的启示

研究背景:字节跳动的「种子计划」

这项研究来自字节旗下的Seed团队,该团队专注于多模态生成技术的前沿研究。论文于2025年4月份发布在arXiv上。

在视频生成领域, 近年来涌现了多个重量级模型,这些模型普遍采用了"更大即更好"的发展路径,通常需要数千台高端GPU进行训练。例如,MovieGen使用了6000多台H100,这种巨大的计算资源需求不仅限制了研究创新,也使得只有少数科技巨头能够参与这一领域的竞争。

与此同时,视频生成的推理成本也远高于语言、图像或音频生成,这对于Instagram和YouTube Shorts等社交媒体应用场景构成了巨大挑战。在这种背景下,Seaweed-7B团队提出了一个关键问题:是否可能通过精心设计,使中等规模的模型也能达到与大型模型相媲美的性能?

核心成果:小模型的“四两拨千斤”

在对Seaweed-7B的核心成果进行剖析前,让我们先概括下它的基本技术框架。

Seaweed-7B基于扩散模型(diffusion model)与Transformer结合的思路,采用了Diffusion Transformer(DiT)这一类模型架构。它继承了近期视频生成技术的主流经验:通过3D变分自编码器(VAE)压缩视频原始像素,再在紧凑的潜变量空间中进行生成式建模。

变分自编码器(VAE)的优化设计

Seaweed-7B在VAE设计上做出了多项创新,这些创新对模型的整体性能至关重要。

他们采用了因果3D卷积架构,这种设计能够统一图像和视频的编码,使得以第一帧为条件的图像到视频生成任务变得自然而直接。同时,这种架构还消除了两个推理片段之间边界的闪烁问题,允许在不进行人工拼接的情况下编码和解码任意长度的视频。

Seed团队还深入研究了压缩比与重建质量之间的关系。他们发现,VAE的重建质量主要取决于压缩比,而不同下采样率的VAE虽然最终会收敛到类似的结果,但收敛速度会因下采样率而异,较小的下采样率通常会导致更快的收敛。

一个特别值得注意的发现是,在VAE内部进行序列压缩明显优于在DiT中使用分块(patchification)。64倍压缩的VAE不仅收敛更快,还能达到更好的稳定点,即使在更高的空间压缩率下,也没有在高分辨率视频生成中观察到明显的视觉伪影。

Seed团队还提出了混合分辨率训练策略,通过使用不同分辨率、时长和帧率的图像和视频进行训练,提高了模型在高分辨率和长时间视频重建方面的泛化能力。这种策略首先仅使用图像进行训练以加快收敛,然后再引入视频。在训练数据中包含高分辨率图像和视频,显著改善了高分辨率重建质量。

混合流结构的扩散变换器

在扩散变换器(DiT)设计方面,Seaweed-7B采用了混合流(hybrid-stream)结构,这是对传统双流(dual-stream)结构的改进。视频和文本标记都通过多个自注意力层和前馈网络处理,允许每种模态发展自己的表示。

Seed团队使用SwiGLU代替GeLU作为激活函数,并通过AdaSingle进行时间步调制,同时在更深层共享三分之二的前馈网络参数,以提高参数效率并减少内存成本。

实验表明,在相同的训练计算预算下,混合流架构始终能够实现比双流架构更低的损失。基于这些设计,研究团队构建了隐藏大小为3584、总共32层的7B混合流模型。

在注意力机制方面,Seed团队比较了全注意力、空间全注意力和稀疏窗口注意力三种类型。

他们发现,在足够的计算预算下,普通的全注意力产生的损失更低,并且在训练可扩展性方面表现更好。然而,对于高分辨率视频训练,全注意力会带来巨大的计算负担。在预训练后将模型从全注意力微调为窗口注意力,可以减少注意力中的冗余,同时保持推理效率,如果设计得当,质量下降可以忽略不计。

为了增强不同宽高比和时长引入的位置信息,Seed团队应用了3D旋转位置编码(RoPE),并构建了3D多模态RoPE(MM-ROPE),通过为文本标记添加兼容的1D位置编码,促进文本和视频之间位置信息的有效融合。

多阶段训练策略

Seaweed-7B采用了从低分辨率到高分辨率的多阶段训练策略。

训练分为四个阶段,每个阶段以该阶段使用的主要目标分辨率区域命名。例如,第1阶段主要使用256×256和512×512的图像,以及256×256的视频。这里的分辨率(如256×256)指的是目标面积,而不是确切的尺寸;图像和视频在保持宽高比的同时调整大小以匹配所需面积。

在视频训练中,研究团队使用了包括文本到视频、图像到视频和视频到视频扩展的多任务训练。

文本到视频是模型收敛最具成本效益的任务。在预训练期间引入少量图像到视频任务有利于文本到视频和图像到视频的学习,但过度增加比例会产生不利影响,不会提高图像到视频的性能。

因此,他们将图像到视频的比例设置为20%。为了增强图像到视频的性能,在预训练后,他们分支出一个专用的图像到视频模型,其中图像到视频任务比例增加到50-75%。

后训练优化

在预训练阶段之后,Seed团队应用了监督微调(SFT)和人类反馈强化学习(RLHF),以进一步提高输出的美学质量、运动一致性和结构连贯性。后训练过程分别针对文本到视频和图像到视频任务独立进行。

SFT阶段的目的是以更符合人类偏好的方式增强视觉质量,包括美学和视觉风格等因素。研究团队通过人工标注策划了一个包含70万个高美学和视觉质量视频的数据集,确保分布平衡。其中,约5万个被确定为最高质量的视频在SFT训练中被赋予更大的权重。

实验表明,SFT阶段后,生成视频的美学和色彩质量显著提高。

然而,长时间的SFT训练可能导致快速过拟合,导致提示跟随能力下降和运动质量降低。

为了解决这些问题,Seed团队开发了一种视频生成的DPO方法,在训练过程中在正样本上加入SFT损失。实验表明,DPO在提高结构和运动质量方面非常有效。

性能表现

Seaweed-7B在多项评测中展现了令人印象深刻的性能。

在图像到视频任务中,Seaweed-7B在MagicArena(https://aigcarena.com/) 的Elo评分系统中排名第二,得分为1047,仅次于Kling 1.6 HD。

值得注意的是,它超越了几个当代强大的模型,如Sora、Veo 2.0、Wan 2.1(14B)和HunyuanVideo(13B)。

这一结果尤为显著,因为Seaweed-7B作为一个7B模型,训练计算资源相当于在1,000台H100 GPU上训练27.7天,却超越了使用更多GPU资源训练的更大模型的性能。

在细粒度比较中,Seaweed-7B在多个评估指标上大幅领先于Sora、Wan-2.1和HunyuanVideo。

与Kling 1.6(HD)相比,Seaweed-7B在提示跟随和运动质量方面具有竞争力,但在视觉质量方面落后,导致整体排名和Elo排名较低。这种视觉质量的不足是可以预期的,因为Seaweed-7B的输出分辨率为480p或720p,而Kling的输出为1080p,这在视觉保真度方面给了它明显的优势。

在文本到视频任务中,Seaweed-7B在Elo比较中排名前2-3位。它紧随排名第一的Veo 2,与Wan 2.1-14B表现相当,并超过Kling 1.6(HD)。

这些结果表明,使用665,000 H100 GPU小时训练的Seaweed模型,与使用更多计算资源训练的更大模型相比,实现了具有竞争力的性能。

方法评析:精巧设计下的取舍之道

Seaweed-7B团队深刻理解到,在计算资源受限的环境中,数据质量和多样性比数量更为重要。

他们构建了一套可扩展的大规模数据处理基础设施,并开发了多种数据处理器来有效筛选高质量视频数据。通过这套数据管道,他们收集了约1亿个视频片段,每个片段平均时长约8秒。

数据处理流程包含多个精心设计的步骤,每一步都对最终模型性能产生重要影响。

在VAE设计方面,他们采用了时间上因果的卷积架构,这种设计不仅统一了图像和视频的编码,还消除了两个推理片段之间边界的闪烁问题。VAE的重建质量主要取决于压缩比,而不同下采样率的VAE虽然最终会收敛到类似的结果,但收敛速度会因下采样率而异。

64倍压缩的VAE不仅收敛更快,还能达到更好的稳定点,即使在更高的空间压缩率下,也没有在高分辨率视频生成中观察到明显的视觉伪影。这一发现对于高效训练和推理至关重要。

在DiT模型设计方面,Seaweed-7B采用了混合流结构,这是对传统双流结构的改进。在相同的训练计算预算下,混合流架构始终能够实现比双流架构更低的损失。

研究团队还比较了全注意力、空间全注意力和稀疏窗口注意力三种类型,发现在足够的计算预算下,普通的全注意力产生的损失更低,并且在训练可扩展性方面表现更好。

为了增强不同宽高比和时长引入的位置信息,研究团队应用了3D旋转位置编码(RoPE),并构建了3D多模态RoPE(MM-ROPE),通过为文本标记添加兼容的1D位置编码,促进文本和视频之间位置信息的有效融合。

这种设计在双流MMDiT结构中导致了更低的训练损失。

Seaweed-7B的训练策略同样体现了研究团队的创新思维。

他们采用了从低分辨率到高分辨率的多阶段训练策略,并在视频训练中使用了包括文本到视频、图像到视频和视频到视频扩展的多任务训练。

尽管Seaweed-7B在多项评测中表现出色,但它仍然存在一些局限性。

在视觉质量方面,特别是在超高分辨率下,Seaweed-7B与一些专注于高分辨率输出的模型相比仍有差距。例如,在与Kling 1.6 HD的比较中,Seaweed-7B在视觉质量方面落后,这主要是因为Seaweed-7B的输出分辨率为480p或720p,而Kling的输出为1080p。

虽然监督微调(SFT)能有效提高美学和色彩质量,但长时间的SFT训练可能导致快速过拟合,导致提示跟随能力下降和运动质量降低。这表明在训练过程中存在一种权衡,需要仔细平衡不同质量维度。

重述器(Rephraser)模型虽然能显著增强视频生成,特别是在视觉美学和风格方面,但它可能会影响提示跟随,特别是对于超过12个单词的较长输入提示,在重述过程中保持确切的语义含义变得具有挑战性。

Seaweed-7B的研究路径充分印证了“巧妙结构设计+ 多任务训练策略+ 后处理对齐”在资源受限下也能逼近大规模模型水准。

它既为视频生成生态提供了一个“更轻量、还能接近高质量”的成功案例,也让我们反思:是否只要无限增大模型与数据,才是视频生成最优解?从方法上看,如何更进一步在计算效率与输出品质间找到更佳折中,仍是后续的重要探讨方向。

结论:小模型的“破局时刻”

Seaweed-7B模型的研究成果为视频生成领域带来了几个重要的技术贡献和启示。

它挑战了"更大即更好"的传统范式,证明了中等规模模型在视频生成领域的巨大潜力。通过精心的设计选择和优化策略,一个仅有7B参数的模型能够在性能上媲美甚至超越参数量是其两倍的模型,这一发现对整个领域具有深远的启示意义。

Seaweed-7B降低了视频生成技术的入门门槛,使更多的研究者和开发者能够参与到这一领域的创新中来。通过证明中等规模模型在视频生成领域的潜力,它鼓励更多的研究关注模型效率而非简单地增加模型规模,这可能会促进更多创新解决方案的涌现。

Seaweed-7B提出的资源效率与性能平衡的新范式,为视频生成技术的商业化和大规模应用铺平了道路。随着视频内容在数字媒体中的重要性不断提升,高效、低成本的视频生成技术将成为内容创作和分发平台的重要竞争力。

Seaweed-7B模型的成本效益优势和竞争性能使其在多个应用场景中具有巨大潜力。

在社交媒体内容创作领域,如Instagram和YouTube Shorts,Seaweed-7B的高效推理特性使其特别适合这些对资源敏感的应用场景。用户可以通过简单的文本描述或参考图像,快速生成高质量的短视频内容,大大降低内容创作的门槛。

在电影和娱乐产业,Seaweed-7B可以作为创意辅助工具,帮助导演、编剧和视觉效果艺术家快速将创意转化为视觉形式。它可以用于概念验证、故事板创建、视觉效果预览等环节,加速创意迭代过程。虽然目前的视频质量和长度可能还不足以直接用于最终制作,但作为创意探索和初步可视化的工具,它已经具备了实用价值。

在教育和培训领域,Seaweed-7B可以用于生成教学视频、演示材料和交互式学习内容。教师和培训师可以通过简单的文本描述或参考图像,快速生成符合教学需求的视频内容,提高教学效率和学习体验。特别是在远程教育和在线学习平台中,这种能力可以大大丰富教学资源的多样性和吸引力。

在广告和营销应用中,Seaweed-7B可以帮助品牌和营销人员快速生成产品演示、概念验证和营销素材。它的图像到视频功能特别适合将产品静态图像转化为动态展示,增强产品的吸引力和说服力。此外,它的成本效益优势使得即使是小型企业和初创公司也能负担得起高质量的视频内容创作。

在创意和艺术领域,Seaweed-7B可以作为艺术家和创意工作者的创作工具,帮助他们探索新的视觉表达形式和创意可能性。它的文本到视频和图像到视频功能可以将抽象的创意概念转化为具体的视觉形式,激发创作灵感和拓展创作边界。

至顶AI实验室洞见

在这个“硬件资源为王”的时代,Seaweed-7B的研究提醒我们,精心的设计选择和优化策略同样重要,甚至可能比简单地增加模型规模更为关键。这种思路不仅适用于视频生成,也可能对其他AI领域产生启发。

Seed团队在数据处理方面的细致工作,展现了他们对数据质量和多样性的重视,以及为此开发的一系列处理技术,体现了对基础工作的尊重和理解。在AI研究中,数据往往是被低估的关键因素,Seaweed-7B的成功再次证明了高质量数据的重要性。

从更广泛的社会影响角度看,Seaweed-7B这类中等规模但高效的模型,有望推动视频生成技术的民主化。它降低了入门门槛,使更多的研究者、开发者和创作者能够参与到这一领域中来,这可能会催生更多创新应用和解决方案。

未来,我们认为视频生成技术将沿着两条并行的路径发展:一条是继续追求更大、更强大的模型,以实现最高质量的视频生成;另一条是优化中等或者小规模模型的效率和性能,以满足更广泛的应用需求。

Seaweed-7B在后一条路径上迈出了重要一步,它的成功将鼓励更多的研究关注模型效率而非简单地增加模型规模。

本文来自至顶AI实验室,一个专注于探索生成式AI前沿技术及其应用的实验室。致力于推动生成式AI在各个领域的创新与突破,挖掘其潜在的应用场景,为企业和个人提供切实可行的解决方案。