作者 | 卷毛 石濑
编辑 | 张洁
一年过去,AI视频进化到哪一步了?
去年圣诞节,我们用当时炙手可热的AI视频工具Pika、Runway制作了一条圣诞动画。
用今天的眼光来看,这条视频“AI味”很重,画面中的人物动作要么有伪影等较为明显的瑕疵,要么动作转换生硬,缺乏连贯性,镜头与镜头之间的衔接更是有种PPT播放感。
不过,对于从未接触过动画制作的外行而言,这样一条视频在当时确实带来了从无到有的“惊喜感”。
时隔一年,新的视频工具层出不穷。尤其2024年下半年,国产视频模型迎来一波密集上新。从快手的可灵AI到MiniMax的海螺AI,再到最近开源的腾讯混元AI视频模型,几乎每个都能单拎出来和Runway、Pika等之前领先的国外AI视频模型一较高下。
这些新的视频工具,是否让AI视频制作变得更简单了?一年过去了,普通人用AI做视频能做到什么程度?为了直观地进行对比,我们沿用了去年圣诞视频的脚本重制了一版新的圣诞视频。
从新旧两版的视频对比,可以看到无论是人物运动还是画面美观度都有了较大提升,甚至连视频中的文字也都是AI直出的,没有经过任何后期编辑。
而这些都是一年前我们制作时遇到的难点。
新旧两版圣诞视频对比:
上面是旧版
下面是最新的重制版
下面,我们将详细拆解最新这版圣诞动画的制作过程,并与去年的制作流程进行对比,看看这一年来AI视频进化到哪一步了。
关键画面:Midjourney+豆包,AI生成中文支棱起来了
从生成模式来说,AI视频制作可以分为文生视频、图生视频和视频生视频。其中,图生视频仍是大多数创作者制作AI短片最常使用的工作流。
背后原因在于,与文生视频相比,图生视频工作流更为可控;与视频生视频相比,图生视频的优势在于流程上它无需实拍,也不需要投喂视频素材给AI。
我们的工作流大致可以分为五个阶段:故事脚本、文生图、图生视频、声音制作以及后期剪辑。
为了确保后期剪辑有足够可用的画面,其中故事脚本、文生图和视频生成(以图生视频为主)这三个环节是同步进行的。这也是AI视频和传统视频制作的不同之处,传统视频制作流程是线性的,试错成本极高,且每一步的决策都可能影响到最终的成品。
去年,我们选用了号称擅长创意故事写作的Claude辅助创作视频脚本:
镜头1:一封信放在床头柜上,特写镜头,背景是一个小女孩在床上睡觉,室内,微弱的温暖灯光,圣诞氛围,皮克斯风格 镜头2:一双戴着红色手套的手拿起了这封信 镜头3:圣诞老人打开信正在阅读 镜头4:空白的信纸特写,主观视角 镜头5:圣诞老人背起大大的红色包裹,走向门口离开,中景 镜头6:小女孩被声音吵醒了睁开眼睛从床上坐起来,特写-近景 镜头7:主观视角,由模糊到清晰,中景,房间里的圣诞树上挂着一对白色羽毛做的翅膀,梦幻轻盈的感觉 镜头8:近景,小女孩高兴地穿上翅膀 镜头9:全景,从天花板俯视,小女孩在房间里跑了起来 镜头10:镜头从天花板拉到外景夜空,中间一轮大月亮,圣诞老人骑着驯鹿的剪影在月亮上从右往左移动
脚本敲定,接下来就是用AI文生图工具来创建视频的关键帧画面。
不过,在投喂AI之前,我们需要将每个镜头的文字描述调整为更易于大模型理解的提示词。
与去年相比,今年的AI视频生成工具普遍配备了提示词自动优化功能。因此,我们主要通过手动调整,并结合AI视频工具的相关提示词优化功能,完成了所有分镜头提示词的调整,省略了以往需要单独训练提示词Bot来辅助生成的步骤。
进入文生图环节,今年我们使用的工具是Midjourney和豆包。
与去年相比,Midjourney在理解复杂提示词方面的能力有了明显提升。
并且在生成文本方面,尤其是中文——这个曾经的AI文生图难题、对普通人来说的创作门槛,显然已经快被迅速迭代的技术填平了。
在这个环节中,最惊艳的是一个涉及中文生成的镜头,它是豆包生成的。
提示词:戴着红色手套的手拿着一张信纸,纸上写着文字“圣诞老人您好,我的心愿是:我想像鸟一样飞起来 ——露露”,主观视角,背景是卧室,夜晚,微弱的温暖灯光,圣诞氛围,皮克斯动画风格,比例16:9
仔细看图中的文字部分,除了部分笔画有些许瑕疵,整体文字是能被清晰辨识的。
而在去年,为了故事的完整性,纸上的中文是我们后期人工P上去的。
得益于文生图模型普遍在语义理解能力上的增强,我们今年还新增了2个镜头。
新增镜头①提示词:镜头聚焦在一棵挂着彩灯的圣诞树,背景是卧室,远处床上躺着一个小女孩,虚化背景,夜晚,微弱的温暖灯光,圣诞氛围,皮克斯动画风格 The camera focuses on a Christmas tree with colorful lights hanging on it, with a bedroom in the background and a little girl lying on the bed in the distance, blurred background, night, faint warm lights, Christmas atmosphere, Pixar animation style
Midjourney生成的原图
这里Midjourney生成的图像大致符合我们的提示词要求,不过为了突出温暖的圣诞氛围,我们使用在线设计工具稿定对色调和亮度进行了调整,使得整体呈现出偏暖光的效果。
后期调整过的画面色调
同时,为了提高AI在人物一致性方面的表现,今年我们为主角设计了一个更具辨识度的形象:一个穿着蓝色波点睡衣的黑色短发小女孩。
参考以上这张图,我们用Midjourney的角色一致性命令(--cref)生成了新增的第二个镜头。
新增镜头②提示词:皮克斯动画风格,小女孩兴奋地站在床上,露出高兴的表情,小女孩穿着蓝色波点睡衣,黑色短发,全景,卧室,白色床铺,夜晚,微弱的温暖灯光,圣诞氛围 Pixar animation style, little girl stands on the bed excitedly with a happy expression, little girl wearing blue polka dot pajamas, short black hair, panorama, bedroom, white bed, night, faint warm light, Christmas atmosphere
在叙事性较强的短片制作中,--cref命令没有想象中那么有效。例如,这个画面关键帧生成的提示词要求为“小女孩兴奋地站在床上”,我们跑了很多次生成效果都不理想,要么小女孩飞了起来、要么只能生成半身。
为了保持角色一致性,一些专业能力更强的创作者会在文生图环节就花大量时间对特定人物(尤其是主角)进行LoRa训练。
对LoRa训练感兴趣的玩家,推荐秋叶大佬的模型训练教程,需要一定硬件基础。
https://www.bilibili.com/video/BV1AL411q7Ub
目前以可灵为代表的AI视频工具也推出了相关LoRa功能,支持用户上传人物照片生成人脸模型,用于保持视频中人物的一致性。
不过这项功能也已经开始收费了,并且还是铂金和钻石会员的专享功能,对一般的自媒体创作来说,从长期成本角度考虑,性价比不高。
如果制作时间紧张或是觉得LoRa训练麻烦,一个取巧的办法是:尽量为人物设置一些鲜明的形象特点,保持一致性的画风,可以在一定程度上弥补AI视频生成在角色一致性上的不足。
视频生成:可灵AI+海螺AI+Vidu+即梦,
国产视频模型哪家强?
这一步是让画面“动”起来。
去年这个时候,Pika仅支持3秒视频片段生成,“运动强度”也基本只能选1~2,不然3秒内画面就会出现夸张的变形。
但放在今年,市面上的AI视频工具基本上都能一次性生成5秒以上的镜头,且在运动幅度上有着不错的表现。说人话就是,AI已经能够生成真正的动态影像,而非简单的PPT动效。
这次我们的主力工具是快手的可灵AI、MiniMax的海螺AI,还同步测试了Sora的故事版功能,以及即梦和Vidu等国产视频模型。
一众工具中,可灵AI在人物运动方面表现依然是最优秀的。
例如,圣诞老人离开房间这个镜头。
提示词:皮克斯动画风格,圣诞老人无奈地摇摇头,把手中的信放在桌上,然后从地上扛起红色大包裹,背在身上,打开房门离开,他戴着红色手套,戴着眼镜,中景,跟随镜头,夜晚,微弱的温暖灯光,圣诞氛围
最开始我们使用的是擅长动画风格的海螺I2V-01-live模型。可能是因为提示词要求的动作比较复杂,多次“抽卡”生成的片段都差强人意。
即便每次我们都根据不满意的生成效果,对提示词进行了调整,让它更为详尽和完整。例如“从地上扛起红色大包裹”不够明确,那就再强调下“背在身上”,但最后的效果都很抽象。
12月中旬前我们刚开始制作的时候,可灵1.6模型还没有正式上线,能用的1.5模型在高品质模式下,生成的10秒视频到最后变成了写实的画风。
不过,后来我们又用可灵1.6模型跑了一遍这个镜头,最后效果相当惊艳。
总的来说,可灵的1.5模型会倾向于生成写实风格的镜头。如果一次性生成的视频很长,最后几秒的画面会脱离提示词控制,让AI信马由缰。
Sora的故事版功能也有同样的问题,而且在物理运动理解上表现得相当“鬼畜”。
相比之下,可灵1.6模型在生成效果上更为稳定,也比较能遵循提示词要求。
不过,目前可灵1.6模型暂不支持运动笔刷功能,好几个需要细节控制的镜头,我们是用1.5模型生成的。
另外需要补充的是,重视最终成片质量的玩家,针对不满意的视频片段,可以看看是否使用的是模型的高质量生成模式。
例如,在可灵1.5模型标准模式下,生成的镜头存在语义理解错误:手里多了一封信。
切换成高品质模式后,我们将创意相关性参数从0.5增加到了0.6,惊喜地发现最后生成的视频片段完全符合要求。
可灵之外,我们用的比较多的是海螺的I2V-01-live模型。海螺目前尚未提供运动轨迹控制相关功能,但在保持动画风格一致性和流畅性方面表现不错,一些不需要精细化控制人物、镜头运动的画面都交给了它来处理。
Vidu最近上新的多主体参考功能,是AI视频领域首次出现的新功能。
我们也尝试使用Vidu进行了视频生成。Vidu的视频生成支持多主体参考,用户可以通过框选两张图片中的主体并输入提示词来生成视频。
免费用户可以生成最长4秒、分辨率为720p的视频。
最后Vidu生成的片段,虽然整体上成功融合了人物图和场景图,但画面整体风格和背景都和其他视频片段不协调,而且动作也没有遵循提示词要求。
再三纠结之下,我们在成片中删掉了这段视频。
视频最后圣诞老人驶过月亮露出文字“Merry Christmas”的镜头,一开始我们是想用AI视频工具直出的,接连试了海螺、可灵、Vidu和即梦,都一一败下阵来。
海螺和可灵的文生视频功能在生成清晰、完整且准确的英文文字方面存在困难;而Vidu和即梦则在视频运动表现上比较拉垮。
Sora倒是在这个镜头上自行发挥了创意,不仅文字生成很完整,而且还把驯鹿的剪影和文字融合在了一起。
可惜的是,画面缺少了圣诞老人。
文生视频都不太行,我们最后还是改用图生视频(Midjourney+可灵首尾帧)完成了最后一个镜头。
视频后期:剪映+SunoAI+ChatGPT,
用AI配音作曲更简单了
去年视频后期基本没有AI的参与,今年在声音制作环节能用的AI工具变多了。
新版的圣诞视频动画里,我们用到了SunoAI做配乐,剪映的AI音色克隆做小女孩的配音,圣诞老人的配音则是ChatGPT最新上线的圣诞语音派上了用场。
剪辑还是纯人工,背景音效和文字都来自剪映素材库。AI剪辑工具目前还不太适合用来剪辑故事短片,但在短视频分发、直播切片等领域已经得到一定应用。
从整体制作上来看,制作这条圣诞动画视频,我们的大部分时间还是和去年一样花在了AI生图、生视频上。
虽然AI在图像和视频领域可用的工具越来越多,与一年前相比,AI生成的视频质量也有肉眼可见的提升。但与此同时也带来了一个问题:工具变得非常分散,特别是AI视频,不同模型擅长的领域各不相同。
此外,保持人物一致性仍是普通用户制作故事向AI视频时面临的一个核心难题。
一些产品如可灵的LoRa功能、Vidu的多主体一致性功能虽然提供了解决方案,但要实现Runway CEO画下的AI视频赛道最大的饼——AI将会成为全新媒体时代的新型相机,国内外的视频模型们无疑都还有很长一段路要走。
希望明年的这个时候,我们能够见证AI视频迎来更多创新和突破。
「AI新榜交流群」进群方式:添加微信“banggebangmei”并备注姓名+职业/公司+进群,欢迎玩家们来群里交流,一起探索见证AI的进化。
欢迎分享、点赞、在看
一起研究AI
热门跟贴