让创意不断涌现—AIGC视频生成技术应用|原理|序列|算法|视频生成模型

2024年2月，OpenAI发布了文生视频的重磅工具Sora，又掀起了一场轩然大波。人们用各种语言在全球的社交媒体上惊呼：现实，不存在了。

Sora的出现，对人工智能的整体发展，到底意味着什么？

它能够为我们做哪些事情？

对教育行业会带来哪些影响？

人类离通用人工智能（AGI）还有多远？

本文将和大家一起来了解基于AIGC的视频生成技术的原理，探索如何使用各类工具生成视频，让创意不断涌现。

2024年2月16日凌晨，OpenAI发布了一款“文生视频”的工具Sora，整个世界再次被震撼了。这也是ChatGPT掀起热潮时隔一年后，又一次史诗级的更新。

3月上旬，由50位AI领域艺术家组成的团队利用人工智能技术翻拍了90分钟的经典科幻电影《终结者2：审判日》，这部全球瞩目的电影，将对影视行业产生怎样的颠覆性影响。从文本到图片，再到声音和视频，AIGC技术正以超乎人类想象的速度进化。

有人预料，Sora的出现，可能意味着，通用人工智能（AGI）正在加速到来。接下来，我们一起来了解文生视频的发展历程、关键技术，探讨未来发展。

文生视频技术发展历程

生成视频的方式有很多，可以用摄像设备拍摄，用录屏软件录制，也可以用视频编辑工具制作生成，更可以通过输入提示语自动实现视频生成。前几种比较依赖设备和软件技术，最后一种主要是依托模型算法，尤其是人工智能技术。

具体来说，文生视频是根据给定的文本描述、图片、视频等，自动生成符合场景需求的视频内容，如生成电影、电视剧、游戏中的虚拟场景、角色、特效等，或根据原始影片生成电影预告片，根据产品文字介绍生成视频广告等。

可以说，在当下视频创作生产领域，人工智能的引入能够成为创作体系下的先进生产力，伴随着图形处理技术与硬件制程工艺的蓬勃发展，人工智能技术在视频制作领域中的应用能力也在逐步扩大。

近年来，以Runway为代表的文生视频公司在不断涌现，互联网行业的巨头，如谷歌、Meta、微软，同样投入人员和精力参与其中，国内目前文生视频技术还处在初期发展阶段。

文生视频模型的发展经历了三个关键阶段：图像拼接生成阶段、GAN/VAE/Flow-Based生成阶段、自回归和扩散模型阶段。近年来，视频生成在画质、长度、连贯性等方面都有了很大提升。

第一，图像拼接生成阶段。在早期阶段，视频生成主要基于图像技术，将每一帧静态图像拼接成一个连续的视频流。利用图像拼接合成视频的方法较为简单易用，但缺点是生成的视频质量低，连贯性较差。

第二，GAN/VAE/Flow-based生成阶段。随着机器学习技术的发展，生成对抗网络（GAN）、变分自编码器（VAE）以及基于流的模型（F1ow-based model)开始被用于视频生成任务，这个阶段的发展主要集中于改进模型训练和生成算法。

由于对视频直接建模的难度很高，一些模型通过将前景和背景解耦、运动和内容分解等方式生成视频，或基于对图像的翻译来改进生成效果，以加强连续帧之间的平滑过渡，但在总体效果上生成视频的质量仍然不理想，难以实际应用。

第三，自回归和扩散模型阶段。随着Transformer、Stable Diffusion在语言生成、图像生成领域取得成功，基于自回归模型和扩散模型的视频生成架构逐渐成为主流，自回归模型可以根据先前的帧来预测下一帧，视频较为连贯自然，但存在生成效率低且错误易积累的问题。

一些研究将扩散模型在图像生成研究中的成果成功迁移到了视频生成中，通过对图像生成架构的改进使其适应视频生成任务，这种方法的优点是生成的视频具有高保真的效果，但相应地也需要更多的训练数据、时间和计算资源。

在这个阶段，由于算法的不完善，视频仍然不可避免地出现跳帧现象，并存在内容表现的逻辑性欠缺等问题。

AIGC技术生成视频关键技术原理

视频内容其实是图像在时间维度上的叠加,图片生成算法为动画内容的生成奠定了基础。

文本生成图像的热门模型有Midjourney、Disco Diffusion、Stable Diffusion、Dall·E2等。

其基本原理是在无监督预训练后，根据扩散模型去噪过程中的图像评估与文本的匹配度，引导扩散模型生成最符合文本的图像。

为提高生成图像的准确度，模型往往支持文本描述与图片参考共同作为生成图像的标准。

AIGC技术可以用于快速生成短视频、宣传片、动画片等视频内容。

通过图像生成算法和视频处理技术，可以自动生成具有特定风格和内容的视频作品。

此外，AIGC技术还可以用于视频修复、视频剪辑等领域，提高视频的质量和效果。

2019年谷歌发布的一项预测视频的人工智能技术——VideoBERT，将Transformer拓展到“文本——视频”领域，验证了Transformer预训练用于多模态学习的可行性。

2021年OpenAI提出的CLIP模型基于Transformer进行预训练，分别提取文本与图像的特征并进行对比，得到“文本——图像”的相似度，使得两种不同模态的数据得到关联。

1.主要模型介绍

（1）自回归模型Auto-regressive Model

自回归模型（Auto-regressive Model）是采用Transformer进行自回归图像生成。

Transformer能够模拟像素和高级属性（纹理、语义和比例）之间的空间关系，利用自注意力机制进行编码和解码。

采用该架构模型的文生图通常将文本和图像分别转化成tokens序列，然后利用生成式的Transformer架构从文本序列中预测图像序列，最后使用图像生成技术（VAE、GAN等）对图像序列进行解码，得到最终生成图像。

自回归模型的特点是稳定性好及生成图像的逻辑相对合理，这也是模型的优势所在。

（2）扩散模型Diffusion Transformer

扩散模型的工作原理是通过连续添加高斯噪声来破坏训练数据，然后通过逆转这个加噪过程来学习恢复数据。

训练后可以使用扩散模型来生成数据，只需通过学习到的去噪过程来传递随机采样的噪声。

扩散模型是一种潜变量模型，逐渐向数据添加噪声，以获得近似的后验。在原有语义分割模型的基础上，升级成了可伸缩性更强的Transformer。能够通过增加参数规模和训练数据量来快速提升模型的性能表现，模型在图片生成任务上也表现优异。

实践表明，该模型降低了对算力的需求，展现了良好的视频生成能力。

（3）时空图像块Spacetime Patch

视频其实是记录了时空信息的载体，时空碎片Patch可以看作是三维空间的点集(x,y,z)的运动(t)，或者说其实是个四维时空模型(x,y,z,t)。

Sora和Lumiere之类的生成模型的第一步都是如何从中提取出相应的关键信息。

以Sora为例，能够将视频转换为若干个时空区块，并通过视觉块嵌入代码实现多镜头无缝切换。这使得生成的视频具有高度可扩展和有效的视频数据处理能力。

碎片Patch已经被证明是一个有效的视觉数据表征模型，且高度可扩展表征不同类型的视频和图像。

将视频压缩到一个低维的潜变量空间，然后将其拆解为时空碎片Spacetime Latent Patches。用户提供的图像或视频可以自然地编码为时空碎片Patch，用于各种图像和视频编辑任务。

2.AIGC文生视频技术

目前，AIGC技术在文本生成和图像生成领域已经取得了显著的成果。其中，ChatGPT、Google Bert、Stable Diffusion和Midjourney V5等模型已经被广泛应用于文本和图像生成方面，展现出了强劲的创作辅助能力和制作提效能力，也带动了视频创作与制作领域的创作形式和制作效率的惊人变化。

构建类似Sora的应用最重要的是针对视觉数据的建模，而碎片Patch已经被证明是一个有效的视觉数据表征模型。如图1所示，图像或视频可以自编码为时空碎片Patch，用于各种图像和视频编辑任务。

图1

Sora的出现其实是在时空潜变量碎片上学习到了可视层面或者表面意义上的状态空间模型SSM（State Space Model），从而在视频生成上展现出强大的涌现能力：人和景物在三维空间移动一致性；长程时间相关性与对象持久性，如一个事物被遮挡后也能够扩展重现，事物与周边世界的互动性，仿真数字世界等。

OpenAI认为，持续扩大视频模型的规模，将可以用来模拟整个物理和数字世界，毕竟它们纯粹是尺度的现象。

3.部分文本生成视频的模型

清华CogVideo，是首个开源的中文文本生成视频模型，基于自回归模型。该模型能够更好地对齐文本和视频剪辑，显著地提高视频生成的准确性，这种训练策略赋予了CogVideo在复杂语义运动的生成过程中控制变化强度的能力。

基于预训练的文本生成图像模型：通过微调预训练的文本生成图像模型，节省了从头开始预训练的花费，提高了生成的效率。

字节MagicVideo，是字节跳动提出的一种基于潜在扩散模型的高效文本到视频生成框架，MagicVideo可以生成与给定文本描述一致的平滑视频剪辑。

MagicVideo的核心在于关键帧生成，通过扩散模型来近似低维潜在空间中16个关键帧的分布，结合具有高效的视频分配适配器和定向时间注意力模块的3D U-Net解码器，用于视频生成。

为了改善生成的视频中的像素抖动，MagicVideo提出了一种新颖的VideoVAE自动编码器，以实现更好重建。

谷歌Phenaki，由Google Research开发制作，该模型是第一个能够从开放域时间变量提示中生成视频的模型，能够根据一系列开放域文本提示生成可变长度的视频。

通过将视频压缩为离散令牌的小型表示形式，词例化程序使用时间上的因果注意力，允许处理可变长度的视频。

Phenaki是第一个可以通过一长串的文本描述并且可以随着时间的推移而变化以生成长达2分钟连贯视频的模型。

使用工具，制作创意短片

AI生成能够为作品赋予独特风格和想象力，为创作者提供灵感，配合高超的剪辑技巧和叙事能力，制作出超乎想象的效果。

随着算法、预训练模型和多模态技术的日益完善，越来越多的人工智能生成内容作品涌现出来。

目前，虽然Sora还不能使用，但我们也可以尝试用以下工具来制作创意视频短片。

1.视频生成工具推荐

在国外已经有不少优秀的视频生成工具。

首先是Runway，一个强大的AI视频制作工具，绿幕抠像、视频合成等都可以实现。用户可以创建并发布预先训练好的机器学习模型，用于生成逼真的图像或视频等。

Runway发布的Gen-2模型允许用户从文本、图像和视频片段中生成视频内容。Runway已经被广泛应用于电影、电视与广告等领域，电影《瞬息全宇宙》背后的视觉效果团队使用了Runway的技术来帮助创建某些场景。

其次是Pika，一个AI视频生成和编辑工具，是由美国AI初创公司Pika labs在2023年11月发布的。

用户只需输入文字或图像，即可快速生成3D动画、动漫、卡通、电影等风格的视频。

再次是Pictory，一个基于人工智能的在线视频制作编辑器工具，可以帮助用户快速、简单、高效地制作各种类型的视频。基于强大的AI技术和丰富的素材库，就可以轻松创建专业品质的视频，并分享到各个社交媒体平台上。

在国内也有很多值得期待的产品。

首先是剪映，它是2019年由字节跳动旗下的一家公司推出的短视频编辑工具。剪映具有图文成片功能，用户只需要输入文字，就能够自动生成文案，选择声音后就能够生成图文和音乐结合的视频，非常方便。

其次是智影，它是腾讯出品的一个云端智能视频创作工具，无需下载安装，只需通过浏览器访问，就可以在线视频剪辑和制作。

腾讯智影基于人工智能技术打造的智影数字人播报能力，以及联合更多腾讯AI能力推出的素材管理、AI文本配音、自动字幕识别、文章转视频、去水印、视频解说、横转竖等功能，帮助用户更好地进行视频化的表达。

再次是近期由阿里巴巴团队发布的生成视频模型EMO（Emote Portrait Alive），用户输入一张参考图和声音，该框架就能够生成具有丰富面部表情和头部姿势的声音肖像视频，以及实现无缝对接的动态小视频，最长时间可达1分30秒左右。

2.视频生成工具体验

下面，以“剪映”为例，演示自动生成视频。

①使用“图文成片”功能，输入主题，如“小学生开学了”，选择文章想要表达的话题类别，如“学习成长、知识海洋”，再选择“视频时长”，如“1~3分钟”，然后点击下方的生成文案按钮，就会自动生成右侧的文案内容（如图2）。文案可以选择不同风格，并进行修改。

图2

②在确定文案后，选择不同类型的音色和生成视频的方式就能够自动生成视频了。

③等待一会后，剪映就会自动生成一个完整的视频，字幕、图像、配音、背景音乐等一应俱全，且适配度较高（如图3）。我们还可以使用剪映的强大编辑功能，做进一步修改完善。

图3

Sora等技术对教育的影响

Sora等AIGC技术的发展如此迅猛，冲击着各行各业。作为教育工作者，笔者不禁思考，Sora等技术会给教育带来哪些影响？

对教师而言，Sora等技术带来的影响有：

①增强教育资源生成效果。面对枯燥生硬的知识内容，教师以往只能通过文字、语言或者形体动作来阐释，其效果明显受限。而AIGC生成视频技术能够用较短的时间展现全景逼真的效果，给学生带来完全不一样的体验，也必然增强教学效果，同时，生成的海量资源也将成为教师的教学宝库，帮助其丰富教学内容，提高教学效果。

②降低教育资源制作成本。Sora等技术不仅使得不同地区、不同层次的学校都能接触到高水平的教学视频，还将深刻影响传统的教学方法和理念。教师可以利用文生视频模型的海量资源来激发学生的探究精神和创造力，提高学习效率，这样不仅可以激发学生的学习兴趣和动力，还可以帮助他们更深入地理解和掌握知识。

对学生来说，Sora等技术带来的影响有：

①高效展示学生生成作品。学生内心往往有很好的创意想法，但受限于工具和表现能力不能很好地表达，视频生成技术只需输入少量文字就可以展示全景效果，让创意快速成为现实。

②轻松实现个性化沉浸式学习。根据学生的学习特点和进度，多模态智能对话，推荐适合的学习资源和学习路径，实现因材施教。

此外，Sora等技术也将打破时空界限，让优质教育资源得以共享，更好更快地实现教育公平；

改变教育和学校的形态，使得学习和互动将会无处不在；

打破学校的物理边界，让教师和学生足不出户也能进行沉浸式学习和交流。

思考与展望

面对Sora等技术的冲击及其对教育的影响，我们也要注意到技术带来的诸多问题。

首先是版权问题，AIGC模型进行学习、训练的样本库来自网络大量的数据信息,生成内容是基于样本信息的再创作。

虽然部分模型官方以付费方式出售生成内容的使用版权,但对于样本的原作者是否构成侵权却无法界定，还缺少明文条例用以说明AIGC的版权问题。

依照其快速发展的趋势,我们期望未来能够完善体制,以保障原创者的权益。

其次是安全问题。AIGC追求还原真实性,若有可能被不法分子利用生成违法信息、宣传虚假内容会造成严重后果。

因此，模型供应方需筛选文本敏感词汇,产出数据也需要第三方合理监管、跟踪。

还有一个更为重要的问题是人工智能教育问题，人类如果无法掌握人工智能技术，那将更为可怕。

面向未来的人工智能教育是大势所趋，我国一直非常重视人工智能教育，大力提倡在中小学、高校开设人工智能课程。

我们可喜地看到，南京大学在2月27日发布了2024年9月面向全体新生开设的“人工智能通识核心课程体系”总体方案，拟建设“1+X+Y”三层次的课程体系，学生经过系统的学习和训练，满足一定条件，可以获得人工智能专业修读证书。我们可以期待，这样的课程措施越来越多。

随着Sora等技术的发展，AIGC技术将成为未来媒体行业发展的主流趋势，新技术正在助力媒体融合转型迭代，语言大模型对行业的影响还会加剧，当然也包括教育领域。

总之，大胆地去做吧，你只管出点子、给提示，AIGC视频生成技术会让你的创意不断涌现。

本文作者：

倪俊杰

杭州师范大学经亨颐教育学院

浙江省桐乡市凤鸣高级中学

文章刊登于《中国信息技术教育》2024年第07期

引用请注明参考文献：

倪俊杰.让创意不断涌现—AIGC视频生成技术应用[J].中国信息技术教育，2024（07）：69-73.

欢迎订阅

点击图片即可订阅

让创意不断涌现—AIGC视频生成技术应用

热搜

热门跟贴

热搜

热门跟贴

相关推荐

“安全智能”的背后，Ilya 究竟看到了什么？

字节AI版小李子一开口：黄风岭，八百里

第一个100%开源的MoE大模型，7B的参数，1B的推理成本

抢疯了，腾讯给大模型人才，定了一个前所未有的标准

MIT开发高效算法大幅降低强化学习训练成本

AI被连续否定30次：ChatGPT越改越错，Claude坚持自我、已读不回

8岁小孩哥上手用AI制作游戏，全程2小时，引来50多万人围观

男子用算法打造了一把会飞的剑，飞剑时速可达125kmh

天才学生建模大赛被换掉，不料她和别人组队得了冠军

男子给女生表演魔术，只有观众知道原理

几行乱码让大模型获得科学思维，这个神奇的提示词突然火了

MSRA：视觉生成六大技术问题

HuggingFace工程师亲授：如何在Transformer中实现最好的位置编码

谁快来解释下 这到底是什么原理

嫂子表演生吞黄瓜，一番表演否定所有努力，背后原理不忍心揭穿！

不同数据集有不同的Scaling law？而你可用一个压缩算法来预测它

判断一个人是不是人才，就看这一点

为什么制造小小的圆珠笔头会很复杂？显微镜放大后，看原理就懂了

金矿上的村庄：遥远的“暴富神话”与“三班倒”矿工丨封面头条

终于还是把Mate70发布会看完了，说句实话，不是超越和碾压

谁快来解释下这到底是什么原理