本篇论文摘要由AI工具根据论文原文生成,阅读原文请访问“广电猎酷”小程序“”板块。
在 AI 飞速发展的今天,湖南风芒传媒有限公司针对传统的内容生产方式面临速度慢、成本高等问题,在新媒体行业率先引入 AI 大模型技术,研发 AIGC 产品芒融融,应用在文案写作、绘画生图、视频内容生产三个方面,帮助企业提高内容生产效率,扩大品牌影响力,把握新技术方向,推进企业创新意识。
本文作者:
徐曙辉 湖南风芒传媒有限公司
第一作者简介:
徐曙辉(1992),男,湖南风芒传媒有限公司工程师,本科。主要从事互联网软件、AI 大模型方面的研究,负责风芒项目研发,获得微软领英生成式AI 证书、讯飞星火 Prompt 工程师证书等。
NO.1
AIGC 产品芒融融
1.1 研发过程
为了探索新业务,为新媒体内容创作者提供更受欢迎的内容工具,解决内容创作者操作繁琐、内容素材少的困难,风芒公司研发 AIGC 产品芒融融(见图 1),帮助内容创作者提高创作效率,提升创作质量。
图1 芒融融界面
从需求调研到第一个完整版本发布上线,耗时一个月,上线后得到用户的一致好评认可。作为公司科技创新的一张亮眼名片,芒融融扩大了公司品牌影响力。在中秋节上线的活动《你想我画,描绘心中的诗词中秋》,如图 2 所示,吸引了大批新用户使用。
图2 诗词中秋
1.2 系统技术架构
芒融融的研发过程采用敏捷式开发,前后端分离的开发模式,前端页面和后端接口通过HTTP 协议通信。用户可以选择 Web 端、安卓或者 iOS 端进入系统。
用户流量从客户端进来后,到业务层,业务层是提供给用户使用的功能模块。包含用户模块,具有用户注册、登录、绑定手机号码、找回密码等功能;权限模块管理用户能够使用哪个 AI 功能 ;AI 模块是大模型提供的基础能力,如文案写作、绘画生成和视频生成;任务模块存储用户使用 AI 能力创作的内容。
往下进入服务层,服务层包含异步服务和同步服务,同步服务对 AI 模型层的能力进行封装和抽象,提供 GRPC 接口给上层业务调用,业务层无需关注不同模型提供的接口细节。在耗时较长的业务场景中,无法实时完成用户的操作任务,为给用户提供更好的用户体验,引入消息中间件和异步服务。异步服务即消息队列的消费服务,消费用户使用 AI 触发的业务事件消息。
往下是模型层,模型层接入各大厂商发布的大模型产品,以及公司私有化部署的模型。按内容能力分为文本模型、绘画模型和视频模型。即使某个大模型无法使用,也不会影响用户正常使用。
往下是存储层,存储层包含 MySQL、Redis、Elasticsearch和 OSS。MySQL 主从数据库存储所有用户数据,数据在主数据库写入,再从数据库读取,主从数据库之间同步数据。保证数据即使在数据库宕机时也不会丢失,同时保障数据库高可用。Redis 作为热数据的缓存,提高数据读取性能,保证用户在大用户量和高并发场景中依然能够获得良好的用户体验。Elasticsearch 作为专业搜索中间件,提供内容全文搜索功能。OSS 存储 AI 生产的图片和视频等资源文件。
芒融融的技术架构图如图 3 所示。
图 3 芒融融的技术架构图
芒融融的技术创新点在于把互联网和最新型 AIGC 能力相结合,集成不同底层基础大模型的文案编写、图片和视频生成等能力,使用分布式微服务架构,对用户提供可用的封装好的 AI 能力,无需用户关注各种大模型使用方法,减少学习成本,易于用户上手,提高内容生产力。系统自动进行动态流量调度和负载均衡,保障整体架构的高可用稳定性和高性能,保证用户的良好体验效果。
NO.2
文案写作与内容生产
2.1 模型在文案写作中的应用
在文案写作方面,芒融融使用 GPT 大模型,输入结构化提示词,按照需求输出指定的文案内容。它能够根据用户输入的关键词或主题,生成具有一定创造性和逻辑性的文案。如图 4 所示,我们可以输入提示词生成文案内容。例如,当输入“请帮我写一篇美妆新品的广告文案,用来吸引爱美的消费者,字数约 200 字”时,模型完全可以生成吸引消费者注意力的文案。
图4 芒融融写作
2.2 GPT大语言模型结构
2.2.1 G:Generative 生成式
GPT 能够通过深度学习算法对已有数据库进行学习,再根据输入的指令生成全新的内容,也即拥有原创能力,同一个问题每次提问所获得的答案都不一样。GPT 生成答案时,采用了自回归语言模型,会基于上下文信息并预测单词的概率分布来生成下一个单词,并将其添加到已生成的答案中。
也就是一边回答一边猜测下一个词句该说什么才符合提问常见条件和语义逻辑,表现为逐字生成的打字机效果。
2.2.2 P:Pre-trained 预训练
GPT 利用海量语料数据进行预先训练、深度学习,从而使得模型能够掌握自然语言的语法、语义和知识等方面的信息,构建一个千亿级参数的知识数据库以供检索。
2.2.3 T:Transformer 转换模型
GPT 所用的机器强化学习系统架构,是基于 Transformer 这一个由谷歌设计的大语言模型,通过神经网络模型来模拟人脑的学习方式,从而实现对复杂数据更高效的分析和学习,能够更准确地理解语义,创造出新的内容。Transformer 由 Encoder、Deocder 构成。
NO.3
AI 绘画与古诗词场景再现
3.1 AI 绘画技术概述
在绘画方面,芒融融已经可以根据用户输入的关键词和要求,生成包含关键词的特定风格图片。如图5所示,当用户输入“The desert, scorching sun, beacon smoke, winding rivers, sunset, golden sunlight”(大漠孤烟直,长河落日圆)时,便生成了一张包含沙漠、落日、河流的图片,完全贴合主题。
图5 芒融融绘画
3.2 AI绘画技术原理
AI 绘画技术基于 Stable Diffusion (稳定扩散) 实 现。Stable Diffusion 是一种文生图的模型,用户输入一个文本提示,然后它将输出与文本匹配的 AI 图像。在 Stable Diffusion 中,扩散过程会分成前向扩散和反向扩散。前向扩散过程就是将噪声添加到训练图像中,逐渐将其转换为非特征噪声图像。
如图6所示,我们在原始的猫的图像中逐渐添加噪音,最终就会生成一张纯噪音的图像。这里的噪音,可以理解为符合正态分布的一些随机采样出来的数据。假设现在有一群猫、狗的图片,通过这个前向扩散过程不断添加噪声,最终我们会区分不出来哪些图片是猫、哪些是狗。如果我们能够反过来操作这个过程,也就是进行逆向扩散,那么就可以从随机的噪音数据中恢复原始的图片,这就像时光倒流一样!
图6 添加噪音的图像
假如我们能知道每一步添加了多少噪音,就可以从图像中去掉这些噪音,然后还原最初的图像。为此,我们可以训练一个模型,专门用来预测每一步产生的噪音,这里就用到了经典的 U-Net 模型。
3.2.2 利用 U-Net 模型预测图像噪音
U-Net 是一种很复杂的卷积神经网络,因为它的形状像一个U字,因此被称为 U-Net。
图7 U-Net 实现过程
如图7所示,具体实现步骤有四步:
1. 准备一张训练图片,比如我们之前提到的猫的图片;
2. 利用正态分布,生成一些随机的噪音;
3. 然后每一次都向这张训练图片上加入噪音;
4. 告诉这个 U-Net,我们添加了多少噪音,让模型去学习。
训练完成后,我们就得到了一个非常厉害的模型,它可以预估出添加到图片里的噪音。我们可以生成一张完全随机的图像,并要求 U-Net 告诉我们噪声。然后,我们从原始图像中减去估计的噪声。重复几次后,我们就可以获取猫或者狗的图像。但是并没有办法去控制最后生成的图像是猫还是狗,因此这是一个无条件的生成方式,因此,我们还需要了解一个模型,这也是 Stable Diffusion 的另外一个核心模型——VAE,俗称变分自动编码器。
3.2.3 利用 VAE 优化和压缩图像
VAE 的作用就是把高维空间映射到一个低维空间,具体来说是 4×64×64 的空间,比原始的空间缩小了 48 倍。SD 模型做的扩散和反向扩散过程,就是在这个潜在空间中进行的,这样就比之前的图像空间小了很多,速度也会更快。
3.2.4 利用 CLIP 模型引入文本信息
我们需要用到一个叫 CLIP的模型,把文字也表示成和图像相似的向量。不需要进一步
关注 CLIP 模型细节,我们输入的提示词,最后会转为一个77×786 维的向量输入 U-Net 中。
3.2.5 组合整个文生图的过程
如图8所示,现在我们把这些模型拼接在一起,梳理一下整个文生图的过程。首先,在潜在空间里随机生成一个3维的图片。U-Net 将潜在噪声图像和文本提示作为输入,并预测噪声。文本提示是来自CLIP 模型的输出,然后,从潜在图像中减去预测的噪声,将成为一个新的潜在图像。然后,重复这个过程N次。把得到的潜在空间的图像,使用 VAE模型,反向解码出图片。最后,我们把所有的模型拼在一起,做一个简化版的流程图。
图8 文生图过程
NO.4
AI 视频内容生产应用
AI 视频是一个极其庞大且深远的领域,Sora 出来之前,Runway 和 Pika 占据了头部地位。一线视频创作者,为了更好表达自己的想法,几乎无法用一个产品完成所有的创作,要横跨几个产品之间,通过复杂的编辑和交互流程,才能完成他们的表达。
4.1 文案生成视频
在 AI 视频没有完全成熟解决方案的时候,芒融融把整个视频生成功能拆分成几个步骤,生成文案,匹配视频片段,合成视频。
如图 9 和图 10 所示,用户使用文案写作功能,输入视频文案,就能够获得一个符合主题和关键词的视频。
图9 芒融融视频生成提示词
图10 芒融融视频生成效果
4.2 技术原理
4.2.1 生成文案
每个视频都需要符合主题的文案,我们可以借助 AI 完成,如果不符合我们的需求就进行修改。
4.2.2 匹配视频片段
我们按照文案句子的关键词进行拆分,去视频库中匹配符合关键词的视频片段和图片,把所有视频按照文案的关键词进行组合。例如,第一个句子中包含 a、b、c 三个关键词,匹配到三个视频片段,不同视频时长不一致,导致视频画面和句子衔接不上。我们要把视频片段进行剪辑,让句子不同片段的时长合理并且组合起来和音频字幕完整结合。
4.2.3 合成视频
把视频文案转换成字幕格式,根据用户输入的语音风格输出音频内容,把所有的视频片段合成一个完整视频,再合成音频和字幕,把完整视频上传到服务器,整个视频内容的生产过程就完成了。
4.3 未来规划
在视频生产过程中并没有用 AI 凭空生成内容,只是对视频库的内容进行重新整合。未来我们会接入专业的视频 AI 大模型,生产出高质量有吸引力的内容产品。
NO.5
未来展望
展望未来,AIGC 技术将在内容创作领域发挥更加重要的作用。随着算法的不断优化和计算能力的不断提升,AIGC 将能够生成更加复杂和个性化的内容。同时,对于 AIGC 技术的监管和伦理指南也将逐步完善,以确保其健康、可持续地发展。
end
《广播与电视技术》、“广电猎酷”广告经营与商务合作代理:
北京中广信通文化传媒有限公司
联系人:李聪
联系电话:18518221868
好文共赏请转发 有话要说请留言
热门跟贴