「声画」精准生成 Meta Movie Gen 太全面了|meta|movie|声画

OpenAI起个大早的视频生成模型Sora始终没有完全对公众开放，这给Runway、Pika、可灵、即梦等类似模型留下了市场空间。顶流尚未出现，文本生成视频的大模型赛道已十分拥挤，如今，社交巨头Meta也来了，视频生成器Movie Gen面世。

新鲜出炉的Movie Gen有两大亮点：超高清晰度与分辨率，还能根据视频内容直接生成配乐。

据悉， Movie Gen可根据文本提示生成16fps帧率的1080p视频，最长时长可达16秒；配乐生成能力则是该模型超强自定义功能的体现，用户还可对画面细节、比例展开精细调整。

“高清、超长还能精调”的特长让Movie Gen弥补了“AI视频生成效果不可控”的短板，再加上能生成配音，Movie Gen可以说是AI视频生成“选手”中综合得分最高的一位了。

在AI视频生成这条赛道上，大模型们卷模态、卷效果、卷风格、卷时长、卷清晰度，Meta直接兼容并包玩起了“聚合”，并在视频制作环节中补上了“配乐”这一步。相较其他大模型，Meta Movie Gen似乎更懂得视频制作人们需要什么。

结果不随机 Movie Gen 可精调画面

Movie Gen 发布时， Meta CEO 扎克伯格很快就在 Ins 上为自家大模型站台。他发布了一段以自己为主角的视频，画面中，他正在脚推器健身，每一次推动，他周围的场景甚至他的服装都在变化。

这段主体不变、场景或细节变化的视频正是由Movie Gen生成的，而“个性化定制” 能力是该工具的亮点。

尽管其他模型也可以通过文本输入实现个性化定制，但Movie Gen可以用文本精准编辑视频，包括对主体、背景、过渡画面、特定物体的展现要求，比如通过文字提示，用户可以“把空中放飞的灯笼变成一个气泡”。

也可以让“在沙滩上跑步的男人瞬移到沙漠”，甚至可以“给男子换上恐龙套装”。

如果用户想用照片中人作视频主角，上传照片后即可通过文字为你的主角设计动作和身处的环境。比如，上传一张女孩的照片，给出提示词，就能让她“在南瓜地里批着围巾喝咖啡”。

对于视频制作者来说，“声画艺术”不仅得有画面，还得有声音。现在，Movie Gen把配乐这事儿也给解决了，用户可以用文本或者视频作为输入提示词，为目标画面生成符合情境的音频。

按需生成画面，再按画面配上音频，这些功能简直是视频制作者的“神器”，利用Movie Gen，现在我们可以按照自己的想法修改和打磨画面了，小到改变人物的发色，大到替换整个背景。

谁还能记得，最早打开AI视频生成“魔盒”的还是去年横空出世的Runway，主打文本生成视频。哨声一响，赛道上迅速挤满了国内外的竞速者，从输入模态卷到了视频时长。

去年6月，快手旗下的可灵推出了图生视频功能，展现了AI生成视频模型在画面质量和运动表现方面的不俗能力；同期，美图也推出了基于奇想大模型的短片创作平台MOKI，制作出来的视频时长能到2分钟；9月，阿里云通义万相发布视频生成模型，文生视频、图生视频在里面来了个“一锅端”。

AI视频生成模型终究逃不过“聚合”这条路，而Meta Movie Gen 可以说是目前最全能的选手，能做到这一点，依然离不开底层模型的支持。

一声一画俩底层模型撑出「全面」能力

根据公开信息显示，Movie Gen主要基于两个基础模型打造。

一个是 Movie Gen Video ——拥有 300 亿参数的 Transformer 模型，可根据文本提示生成 1080P 分辨率、 16 秒长、每秒 16 帧的高清视频；另一个是 Movie Gen Audio 音频模型，其参数共有 130 亿，能够生成 48kHz 的高质量同步电影音效和音乐，为数分钟视频制作出连贯的长音频。