重磅！世界上最大的开源视频生成模型Mochi 1震撼发布，顶级质量|mochi|令牌|视频生成|非对称

Genmo 宣布开源视频生成模型Mochi1，这是目前世界上最大的开源视频生成模型。 Mochi 1在运动质量上有显著提升，并且对提示的响应非常准确。 Genmo发布了480p的基础模型，高清版本的Mochi 1会在今年晚些时候推出。现在可以在genmo.ai/play上免费试用Mochi 1，也可以在HuggingFace上下载使用。（链接在文章底部）

目前，视频生成模型与现实之间存在巨大差距，尤其是在运动质量和对提示的遵循方面，这两个能力仍然不足。 Mochi 1 开创了开源视频生成的新标准，并且在与顶尖的封闭模型竞争时表现非常出色。具体来说，在480p预览在以下两个方面表现突出：提示遵循：Mochi 1 在文本提示的响应上表现出色，生成的视频能够准确反映用户的指示。运动质量：Mochi 1 能以每秒30帧的速度生成流畅的视频，持续时间可达5.4秒，展现出高度的时间一致性和真实的运动动态。Mochi模拟了如流体动力学、毛发和皮毛模拟等物理现象，并表现出连贯流畅的人类动作，逐渐跨越了“恐怖谷”。

01 技术原理

Mochi 1 代表了开源视频生成的重大进步，采用了一个拥有100亿参数的扩散模型，基于新颖的非对称扩散变换器（Asymmetric Diffusion Transformer，简称AsymmDiT）架构。这个模型是完全从零开始训练的，也是迄今为止开放发布的最大视频生成模型。最重要的是，它的架构简单易于修改。

AsymmDiT在处理用户提示时，可以高效地与压缩视频令牌配合，通过简化文本处理和集中神经网络能力于视觉推理来实现。它采用多模态自注意力机制，能同时关注文本和视觉令牌，并为每种模式学习独立的MLP层，这与Stable Diffusion 3类似。然而，Mochi 1视觉流参数数量几乎是文本流的四倍，具有更大的隐藏维度。为了在自注意力中统一这些模式，Mochi 1使用了非方形的QKV和输出投影层。这种非对称设计降低了推理的内存需求。

许多现代扩散模型使用多个预训练的语言模型来表示用户提示，而Mochi 1则仅用一个T5-XXL语言模型来编码提示。 Mochi 1可以在一个44,520个视频令牌的上下文窗口中进行推理，并使用全3D注意力来定位每个令牌。为了对每个令牌进行定位，Mochi 1将可学习的旋转位置嵌入（RoPE）扩展到三维空间。

为了确保社区能够顺利运行 M ochi 1 模型，效率至关重要。除了Mochi， Genmo 还开源了视频VAE。 VAE可以将视频压缩至原来的128分之一，空间压缩为8x8，时间压缩为6x，生成12通道的潜在空间。

02 实际效果

在研究预览阶段，Mochi 1 仍在不断发展中，目前有一些已知的限制。首次发布的版本支持480p的视频生成。在某些极端运动的边缘情况下，可能会出现轻微的变形和失真。此外，Mochi 1 优化了逼真的风格，因此在生成动画内容时表现不佳。预计社区将会对模型进行微调，以适应不同的美学偏好。

真实的运动遵循物理定律，甚至最微小的细节：

通过将视频与文本提示完美结合，可以对角色、设置和动作进行详细控制：

消除恐怖谷：

https://github.com/genmoai/model
https://www.genmo.ai/play

欢迎交流～，带你学习AI，了解AI

重磅！世界上最大的开源视频生成模型Mochi 1震撼发布，顶级质量

热搜

热门跟贴

热搜

热门跟贴

相关推荐

美国宾夕法尼亚州参院竞选将重新计票

在阿里，痛苦的人开始信教

干嘛呢！王大雷大意将球漏过送空门，李磊拼命封堵成功救险！

张家界大庸古城试运营三年入驻店铺可查仅18家，日均购票人数不足20人，商家自称“苟延残喘”

100万贱卖，曾坐拥2.4亿用户的“互联网全球500强”，被时代抛弃？

紫金矿业回应在哥伦比亚被掠走3.2吨黄金：影响较小

国家卫健委：我国现行1610项食品安全国家标准，含2万多项指标

年轻人抛弃搜索引擎

乌外交部：没有也不打算拥有核武器

曹德旺：其实大部分人都不适合发财，因为钱的反噬力非常大

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

上海试点：菜场现烧！97元能吃一桌菜，晚上大排长龙，商家却说“不太赚钱”

战争进入“精确数量”时代——美国正在谋求新的“非对称”优势｜IPP全球智库纵览

1美元兑换100.74卢布，俄罗斯卢布贬值至不足1美分，开始加速了

为什么现在要慢慢弱化宗族观念？网友分析一针见血，都是有原因的

美国要求台积电停供大陆先进AI芯片，专家：或对中国AI算力经济造成影响

再签60单！为何C919大飞机总订单已超1500架，总交付量却只有11架

女子韩国旅游订房踩坑：每晚标价6万多未看清币种符号，回国后被扣6万元人民币

11月14日俄乌最新：最大的意外

31省份平均工资公布！