打开网易新闻 查看精彩图片

OpenAI起个大早的视频生成模型Sora始终没有完全对公众开放,这给Runway、Pika、可灵、即梦等类似模型留下了市场空间。顶流尚未出现,文本生成视频的大模型赛道已十分拥挤,如今,社交巨头Meta也来了,视频生成器Movie Gen面世。

新鲜出炉的Movie Gen有两大亮点:超高清晰度与分辨率,还能根据视频内容直接生成配乐。

据悉, Movie Gen可根据文本提示生成16fps帧率的1080p视频,最长时长可达16秒;配乐生成能力则是该模型超强自定义功能的体现,用户还可对画面细节、比例展开精细调整。

“高清、超长还能精调”的特长让Movie Gen弥补了“AI视频生成效果不可控”的短板,再加上能生成配音,Movie Gen可以说是AI视频生成“选手”中综合得分最高的一位了。

在AI视频生成这条赛道上,大模型们卷模态、卷效果、卷风格、卷时长、卷清晰度,Meta直接兼容并包玩起了“聚合”,并在视频制作环节中补上了“配乐”这一步。相较其他大模型,Meta Movie Gen似乎更懂得视频制作人们需要什么。

打开网易新闻 查看精彩图片

结果不随机 Movie Gen 可精调画面

Movie Gen 发布时, Meta CEO 扎克伯格很快就在 Ins 上为自家大模型站台。他发布了一段以自己为主角的视频,画面中,他正在脚推器 健身,每一次推动,他周围的 场景甚至他的服装都在变化。

 「声画」精准生成 Meta Movie Gen 太全面了
打开网易新闻 查看更多视频
「声画」精准生成 Meta Movie Gen 太全面了

这段主体不变、场景或细节变化的视频正是由Movie Gen生成的,而“个性化定制” 能力是该工具的亮点。

尽管其他模型也可以通过文本输入实现个性化定制,但Movie Gen可以用文本精准编辑视频,包括对主体、背景、过渡画面、特定物体的展现要求,比如通过文字提示,用户可以“把空中放飞的灯笼变成一个气泡”。

 「声画」精准生成 Meta Movie Gen 太全面了
打开网易新闻 查看更多视频
「声画」精准生成 Meta Movie Gen 太全面了

也可以让“在沙滩上跑步的男人瞬移到沙漠”,甚至可以“给男子换上恐龙套装”。

 「声画」精准生成 Meta Movie Gen 太全面了
打开网易新闻 查看更多视频
「声画」精准生成 Meta Movie Gen 太全面了

如果用户想用照片中人作视频主角,上传照片后即可通过文字为你的主角设计动作和身处的环境。比如,上传一张女孩的照片,给出提示词,就能让她“在南瓜地里批着围巾喝咖啡”。

 「声画」精准生成 Meta Movie Gen 太全面了
打开网易新闻 查看更多视频
「声画」精准生成 Meta Movie Gen 太全面了

对于视频制作者来说,“声画艺术”不仅得有画面,还得有声音。现在,Movie Gen把配乐这事儿也给解决了,用户可以用文本或者视频作为输入提示词,为目标画面生成符合情境的音频。

 「声画」精准生成 Meta Movie Gen 太全面了
打开网易新闻 查看更多视频
「声画」精准生成 Meta Movie Gen 太全面了

按需生成画面,再按画面配上音频,这些功能简直是视频制作者的“神器”,利用Movie Gen,现在我们可以按照自己的想法修改和打磨画面了,小到改变人物的发色,大到替换整个背景。

谁还能记得,最早打开AI视频生成“魔盒”的还是去年横空出世的Runway,主打文本生成视频。哨声一响,赛道上迅速挤满了国内外的竞速者,从输入模态卷到了视频时长。

去年6月,快手旗下的可灵推出了图生视频功能,展现了AI生成视频模型在画面质量和运动表现方面的不俗能力;同期,美图也推出了基于奇想大模型的短片创作平台MOKI,制作出来的视频时长能到2分钟;9月,阿里云通义万相发布视频生成模型,文生视频、图生视频在里面来了个“一锅端”。

AI视频生成模型终究逃不过“聚合”这条路,而Meta Movie Gen 可以说是目前最全能的选手,能做到这一点,依然离不开底层模型的支持。

打开网易新闻 查看精彩图片

一声一画俩底层模型撑出「全面」能力

根据公开信息显示,Movie Gen主要基于两个基础模型打造。

一个是 Movie Gen Video ——拥有 300 亿参数的 Transformer 模型,可根据文本提示生成 1080P 分辨率、 16 秒长、每秒 16 帧的高清视频;另一个是 Movie Gen Audio 音频模型,其参数共有 130 亿,能够生成 48kHz 的高质量同步电影音效和音乐,为数分钟视频制作出连贯的长音频。

 「声画」精准生成 Meta Movie Gen 太全面了
打开网易新闻 查看更多视频
「声画」精准生成 Meta Movie Gen 太全面了

AI视频生成模型发展到现在,“逼真”已经是基操,Movie Gen能做到高清级的逼真,主要是因为Movie Gen Video高达300亿参数的Transformer能力,这让它能够准确理解物理世界的运动规律。

据说,Meta AI团队在数亿个视频和数十亿张图像的基础上,对模型进行了大量预训练,其中包括学习蒙太奇、运镜等专业的影视制作技巧。

在与1000个提示评估集上的模型比较时,Movie Gen Video在生成质量和主体一致性方面优于其他模型。

打开网易新闻 查看精彩图片

负责声音部分的Movie Gen Audio 也得到了海量的训练,在Movie Gen Audio的训练中,Meta AI提供了百万小时的音频数据,让模型学习声音和画面之间的对应关系,逐渐训练它理解不同的BGM可能给受众带来的不同感受。

目前,Movie Gen Audio可以生成环境声音、乐器背景音乐和拟音声音,实现视频到音频的对齐和文本到音频的对齐。

从画面与音频的贴合度来看,Movie Gen几乎可以做到专业级。不过,Movie Gen目前还只能支持1080p/16秒/每秒16帧的视频,高保真音频最长也就能到45秒。对于长视频的制作来说,需要大量且多次地生成,成本想必也不会低。

按照Meta的计划, Movie Gen 将于明年正式与公众见面。Meta AI 在官网表示,随着模型技术的改善与发展,他们将会与电影制作人和创作者密切合作,期待它能为视频、影视和 AI行业注入新的可能。

这也意味着,即便Movie Gen开放给公众,它的目标市场大概率不是普通的C端玩家,专业级的B端公司才是具有AI视频生成消费能力的客群。

打开网易新闻 查看精彩图片

你用过哪些AI生成视频工具 ?