Genmo 宣布开源视频生成模型Mochi1,这是目前世界上最大的开源视频生成模型。 Mochi 1在运动质量上有显著提升,并且对提示的响应非常准确。 Genmo发布了480p的基础模型,高清版本的Mochi 1会在今年晚些时候推出。现在可以在genmo.ai/play上免费试用Mochi 1,也可以在HuggingFace上下载使用。(链接在文章底部)

目前,视频生成模型与现实之间存在巨大差距,尤其是在运动质量和对提示的遵循方面,这两个能力仍然不足。 Mochi 1 开创了开源视频生成的新标准,并且在与顶尖的封闭模型竞争时表现非常出色。 具体来说,在480p预览在以下两个方面表现突出:提示遵循:Mochi 1 在文本提示的响应上表现出色,生成的视频能够准确反映用户的指示。运动质量:Mochi 1 能以每秒30帧的速度生成流畅的视频,持续时间可达5.4秒,展现出高度的时间一致性和真实的运动动态。Mochi模拟了如流体动力学、毛发和皮毛模拟等物理现象,并表现出连贯流畅的人类动作,逐渐跨越了“恐怖谷”。

01 技术原理

Mochi 1 代表了开源视频生成的重大进步,采用了一个拥有100亿参数的扩散模型,基于新颖的非对称扩散变换器(Asymmetric Diffusion Transformer,简称AsymmDiT)架构。这个模型是完全从零开始训练的,也是迄今为止开放发布的最大视频生成模型。最重要的是,它的架构简单易于修改。

AsymmDiT在处理用户提示时,可以高效地与压缩视频令牌配合,通过简化文本处理和集中神经网络能力于视觉推理来实现。它采用多模态自注意力机制,能同时关注文本和视觉令牌,并为每种模式学习独立的MLP层,这与Stable Diffusion 3类似。然而,Mochi 1视觉流参数数量几乎是文本流的四倍,具有更大的隐藏维度。为了在自注意力中统一这些模式,Mochi 1使用了非方形的QKV和输出投影层。这种非对称设计降低了推理的内存需求。

许多现代扩散模型使用多个预训练的语言模型来表示用户提示,而Mochi 1则仅用一个T5-XXL语言模型来编码提示。 Mochi 1可以在一个44,520个视频令牌的上下文窗口中进行推理,并使用全3D注意力来定位每个令牌。 为了对每个令牌进行定位,Mochi 1将可学习的旋转位置嵌入(RoPE)扩展到三维空间。

为了确保社区能够顺利运行 M ochi 1 模型,效率至关重要。 除了Mochi, Genmo 还开源了视频VAE。 VAE可以将视频压缩至原来的128分之一,空间压缩为8x8,时间压缩为6x,生成12通道的潜在空间。

02 实际效果

在研究预览阶段,Mochi 1 仍在不断发展中,目前有一些已知的限制。 首次发布的版本支持480p的视频生成。 在某些极端运动的边缘情况下,可能会出现轻微的变形和失真。 此外,Mochi 1 优化了逼真的风格,因此在生成动画内容时表现不佳。 预计社区将会对模型进行微调,以适应不同的美学偏好。

真实的运动遵循物理定律,甚至最微小的细节:

通过将视频与文本提示完美结合,可以对角色、设置和动作进行详细控制:

消除恐怖谷:

https://github.com/genmoai/model
https://www.genmo.ai/play

欢迎交流~,带你学习AI,了解AI