Open-Sora 并非是 Open AI 发布的 Sora 开源版,而是由 Colossal-AI 组织发起的开源项目。该项目旨在高效地制作高质量的视频内容,并开放模型、工具和内容给所有人使用。
国产Sora率先于OpenAI推出,给开源社区带来了巨大震撼:全权重代码开源!只需16秒即可生成720p高清画质的视频,人物渲染极为逼真,电影级变焦效果令人惊叹。与此同时,美国的独角兽公司基于之前的权重,打造了一个数字宇宙,让乐高迷们兴奋不已。潞晨Open-Sora团队在720p高清文生视频质量和生成时长方面取得了突破性进展。
全新升级的Open-Sora 1.2不仅能够无缝生成各种风格的高质量短片,更令人惊喜的是,团队再次选择将全部内容开源,为开源社区带来了更多震撼。
该模型采用了流行的 Diffusion Transformer (DiT) 架构。作者团队以使用 DiT 架构的高质量开源文本生成图像模型 PixArt-α 为基础,加入时间注意力层,将其扩展到视频数据。具体来说,整个架构包括预训练的 VAE、文本编码器和利用空间-时间注意力机制的 STDiT(Spatial Temporal Diffusion Transformer)模型。
STDiT 的每层结构如图所示,采用串行方式在二维空间注意力模块上叠加一维时间注意力模块,以建模时序关系。时间注意力模块之后,交叉注意力模块用于对齐文本语义。相比全注意力机制,这种结构大大降低了训练和推理的开销。与同样使用空间-时间注意力机制的 Latte 模型相比,STDiT 更好地利用了预训练的图像 DiT 权重,从而在视频数据上继续训练。
在训练阶段,首先使用预训练的变分自编码器(VAE)对视频数据进行压缩,然后在压缩后的潜在空间中,与文本嵌入一起训练 STDiT 扩散模型。在推理阶段,从 VAE 的潜在空间中随机采样高斯噪声,并与提示词嵌入一起输入 STDiT,得到去噪后的特征,最后通过 VAE 解码器解码生成视频。
他们提出了一种掩码策略来支持图像和视频的条件化处理。通过设置不同的掩码,可以支持各种生成任务,包括:图生视频,循环视频,视频延展,视频自回归生成,视频衔接,视频编辑,插帧等。
他们认识到数据的数量和质量对打造高效能模型至关重要,因此专注于扩充和优化数据集。他们建立了一套自动化数据处理流程,遵循奇异值分解(SVD)原则,涵盖场景分割、字幕处理、多样化评分与筛选,并设立了完善的数据集管理系统和规范。
作者团队还提供了 Colossal-AI 加速系统,以提高 Sora 的训练效率。通过算子优化和混合并行等高效训练策略,在处理64帧、512x512分辨率视频的训练中,实现了1.55倍的加速效果。同时,得益于 Colossal-AI 的异构内存管理系统,单台服务器(8*H800)可以无障碍地进行1分钟1080p高清视频的训练任务。
安装部署
抱抱脸在线体验
https://huggingface.co/spaces/hpcai-tech/open-sora
对于研究视频生成和内容创作的研究人员和开发者来说,Open-Sora 是一个宝贵的资源。它不仅提供了模型的实现,还包含了运行和测试模型所需的所有工具和指令。
感谢关注~, 带你学习AI,了解AI
热门跟贴