2024年5月23-24日,由流媒体网主办,湖北长江云新媒体集团、湖北电信、湖北移动、湖北联通共同协办的「长江论道暨27届智能视听与科技创新产业论坛」在湖北武汉隆重举行。

本届论道以“洞见新格局·智变新视听”为主题,聚焦大屏格局之变,寻找视听向新路径。

在24日上午的主论坛上,咪咕视讯科技有限公司高级系统分析总监沈昕发表了题为《AI技术影响下的超高清业务发展路径探讨》的主题演讲。

打开网易新闻 查看精彩图片

以下为演讲全文:

各位好,非常荣幸能够再次参加流媒体论道。关于今天的选题,我思考了很久,发现如果在这个时代不谈一点AI,而仅仅停留在超高清这个话题上,显得有些落伍。我本身是技术出身,所以将更多从技术的角度探讨目前哪些AI技术和超高清技术已经切实应用在大屏业务当中。

此外,我还会讨论哪些技术现已成熟并可大规模应用,哪些技术仍处于探讨阶段,以及哪些技术能够在未来改变内容创作、生产,甚至是交互领域,从而革新我们的视听方式。

AI技术对咪咕超高清业务的影响

首先,我们会更加关注AI技术在视听业务,尤其是超高清业务中的应用,注重用户对音视频内容的主观感受。当前,我们讲的沉浸式体验,旨在为用户提供更加真实、清晰,且更接近现实世界的沉浸式体验。人工智能对整个超高清业务产业链的影响是全流程的,包括内容生产、内容运营以及用户展现等方面。

在内容生产方面,AI技术涵盖了拍摄和内容生成,特别是AIGC(人工智能生成内容)的应用。例如,8K超高清内容采集和编播现场的信息快速编辑,以及在最终呈现给用户时进行画质增强。内容运营领域,我们关注如何高效处理海量内容,包括生成快速花絮、内容拆条等。AI可以识别精彩片段,基于画面和声音密度自动生成内容花絮。此外,在电视剧领域,AI能够自动生成多条不同风格的文字简介,帮助运营人员快速呈现内容。海报营销方面,AI技术也为运营提供了更多选择,使得整个运营过程更加丰富多彩。

在用户交互方面,智能推荐、语音交互和数字人等技术正在改变用户的互动体验。咪咕在内容生产方面,特别是体育内容上的尝试,体现了我们对AI技术应用的深入探索。在这一过程中,我们始终坚持脚踏实地和仰望星空的态度。

脚踏实地——从技术成熟度出发,利用AI和超高清技术实现快速变现,提高技术价值和用户体验,使用户在我们的平台上不仅关注内容,还能享受到更好的体验和互动。

仰望星空——展望AI与超高清技术在内容交互领域的革命性变化,探索未来更多可能性。

打开网易新闻 查看精彩图片

AI技术在超高清业务中的具体应用,可以总结为三大类:

第一类是对存量内容的升级。经过时间的沉淀,许多高质量内容的生命力依然很强。例如,最近我们看到《甄嬛传》一年还能为乐视带来1,000万的收入。这些内容在当年拍摄时看起来是高清的,但随着电视机尺寸的不断增大,投射到75寸的电视上时,画质显得不尽如人意。AI技术在画质增强方面大大提高了效率,可以显著提升这些存量内容的视觉体验。

第二类是新质内容的生产。这里我们更加关注超高清内容的采集,特别是体育内容的特殊性,包括及时性、还原度和临场感。AI与超高清技术的结合,可以打通内容采集、制作和播出的全链路,实现更高质量的新内容生产。

第三类是AI技术的未来融合。这是我个人非常关注的领域。以ChatGPT为例,在2023年其发展速度仍是可预测的,但到2024年,随着ChatGPT-4.0和Sora的出现,我们开始不确定AI技术的极限在哪里。未来的视听发展,无论在创作自由度还是视频内容的互动性上,都将与传统的平面视频观感体验有巨大差异。然而,目前我们依然受限于诸多因素,比如大模型的发展、算力的限制以及电力的消耗。我们需要持续关注这些因素的进展,但具体会发展到什么程度,以及如何与现有内容相结合,这是一个长期的命题。

AI+超高清技术应用现状与发展趋势

在讨论AI和超高清应用的现状及未来发展趋势之前,我们首先需要从第一性原理出发,回归到电视业务的本质:最终是为了给用户观看。用户需要精彩的内容和清晰流畅的画质,更进一步是追求沉浸式的观看体验。AI技术的应用可以提升现有画质,加速超高清内容的生产进程,并赋能整个超高清应用链条。

从技术角度来看,我们对视频内容的描述可以分为几个领域,并关注不同的技术参数。这些参数包括:

1. 空间分辨率:我们通常谈论的2K、4K、8K分辨率。

2. 时间分辨率:即单位时间内显示的画面数,也就是帧率。

3. 色彩分辨率:通常指色域范围。

4. 声音分辨率:包括单声道、多声道和立体声等。

未来的视频内容表达,不仅限于传统的平面方式,还会增加景深效果,通过点圆的方式拍摄或展示,使用户能够身临其境地参与其中。

目前,在技术、网络终端和政策的支持下,空间分辨率、时间分辨率和色域等方面已经具备了井喷式发展的基础。例如,2023年亚运会上,咪咕助力中国移动首次实现了8K分辨率编码的国产化(采用AVS3标准),帧率达到了60帧,声音采用了国产的Vivid标准,为家庭用户提供了超高清沉浸式的直播体验。

打开网易新闻 查看精彩图片

在探讨技术未来趋势时,我们的目标是让用户能够置身于已经生成的内容世界中,并与之互动,同时尽量缩小用户看到的虚拟现实与真实世界之间的差距。

在超高清画质增强方面,我们关注空间分辨率、时间分辨率和色彩分辨率的提升,主要涉及超分辨率、插帧以及从SDR到HDR的转换。具体来说:

空间分辨率:通常包括2倍的超分,从标清到高清,或从高清到4K,再到8K。当前效果较好的是2倍超分,因为分辨率跨越过大需要补充的细节实在太多,难度也更大。

时间分辨率:主要通过智能插帧实现。利用视频相邻帧之间的空间和时间特征,通过卷积神经网络(CNN)的多层卷积和反卷积,生成新的中间帧,从而实现帧率的提升。

色彩分辨率:结合CNN和生成对抗网络(GAN),对大量的SDR和HDR视频内容进行训练,构建它们之间转换关系的大模型,最终将原有色彩相对贫乏的视频内容转换成色域更广、色彩更丰富的HDR效果。

咪咕在AI+超高清画质增强的实践经验

咪咕在超高清画质增强上已经实践了一年多到两年的时间,目前实现了规模应用,并且正在持续优化大模型以适应各种不同类型的内容。实际上,从2022年开始,咪咕就已在少量内容上应用AI画质增强。到2023年,我们已经实现了AI画质增强内容在26个省、1.4亿用户中的落地。今年,中国移动发布了AI+移动高清产品,其中内容部分由咪咕提供支持。

在实际生产过程中,我们遇到了很多问题。例如,我们曾误认为增强画质就是简单地提升分辨率、帧率和将SDR转换为HDR,效果就会变好。然而,当我们真正去做时,比如采用通用模型升级《狄仁杰之通天帝国》时,因为其整体色彩偏暗淡,强行提升分辨率后,用户的观感反而变差了。HDR的一个特点是黑的地方越黑,采用通用模型转换后,影片的色调比原来的风格更暗淡。

我们认识到技术不应仅仅为了技术本身,而应服务于用户的最终观看效果。经过多次调整,我们发现需要根据内容的特点和风格进行微调。我们不再单纯追求技术指标,而是以用户的主观感受为主,通过均衡亮度和色彩,有针对性地进行画质增强,最终使观看效果比原片更佳。

打开网易新闻 查看精彩图片

通过一年多的服务,特别是今年第二季度开始,我们接到了很多关于AI画质增强的服务需求。目前我们已经构建了AI+超高清画质服务体系,主要包括两个部分:

在AI+超高清画质提升服务方面。对内容进行分析,根据不同类型的内容和风格进行相应的画质增强。例如,体育内容更加关注分辨率和帧率;动作片或战争片会采用超分辨率提升和插帧的方法;而节奏较慢的爱情片则主要考虑HDR和超分辨率的结合。针对不同类型的内容和风格,我们选择相应的AI增强模型和策略。内容分类后,针对不同类型的内容使用不同的模型进行处理,以选择最佳的AI增强方向。

从实践经验来看,如果一个内容同时进行超分辨率提升、插帧和HDR处理,生产效率会非常低。通过对内容进行分类,并有选择地进行增强,可以极大地提升整体生产效率。

在内容分发方面,在IPTV大屏上应用时,每个省尤其是省广电对4K或超高清的标准定义不同,可能涉及码率要求、编码方式的要求,而互联网服务通常不支持定制。这使得4K应用形成了门槛。我们通过解决生成码率模板的问题,并针对不同省份的内容分发接口进行调整,最终将内容分发及超高清服务进行了打包,希望能加速整个产业的应用。

超高清应用涉及到更大的信息采集量,素材处理需要增强,播出效果尤其是演播效果结合超高清和AI互动会带来许多新效果,使用户有更多的参与感。因此,在采编方面,我们需要更高标准的超高清拍摄,包括4K和8K,这意味着更多的信息采集量和更高的采集标准。

当大量超高清甚至更多机位的信息回传到直播中心时,我们遇到了许多问题。尤其是体育内容,其及时性非常强,对于成倍增长的信息量,我们如何高效处理并快速传输到演播室再到用户,是一个巨大的挑战。应用AI技术在采编播领域,特别是制播领域,我们需要提高速度,这是我们需要思考的。

一个典型场景是体育解说。如果解说采用更多数字化方式,将球员的信息标出或绘制战术,可以增强用户的互动性。因为很多信息不仅需要通过语言表达,图文结合的方式能让用户有更强的感受。因此,我们在演播时会考虑引入新型的播出方式,增加用户的互动性和体验感。

5G+8K转播引领现场采集的超高清技术革命

让我们来看一下咪咕在现场采集方面所做的工作。典型案例是我们打造了5G+8K转播车。今年,咪咕成为中超独家合作伙伴,助力中超首次实现8K直播,通过新的制作方式打造中超体育赛事的新质内容。

打开网易新闻 查看精彩图片

体育赛事尤其注重现场还原度和及时性,因此更快的回传效率、更清晰的画质以及更丰富的信息为直播制作提供了坚实的数据基础。我们的现场拍摄采用了8K 120帧的超高清采编技术,并应用了AVS3编码标准。此外,还实现了超低时延直播和沉浸式数实融合。转播车实际上提供了航母级的服务品质,支持60路外来信号接入,并实现了转制播多模式融合。

通过这些技术和设备,咪咕在体育赛事直播中能够提供更高质量的画面、更流畅的回传速度和更丰富的数据信息,为观众带来更为沉浸和逼真的观赛体验。

在编辑制播过程中,AI的应用实际上变得更加重要,因为它可以成为一个重要的工具,能够重构整个生产过程。

以体育赛事为例,由于体育赛事瞬息万变,对实时性要求很高,因此AI+内容运编能够实现全链路、高效快速的内容生产制播。举例来说,现场的多机位信号过来后,如果仅靠人力进行导播,有时会漏掉一些信息,尤其在制作精彩花絮时,运编人员需要观看大量数据和视频后才能做出判断。这导致需要大量人力参与,生产效率很低。因此,我们引入了AI素材生产、AI直播运编和AI内容监管。AI素材生产包括运营图文生成、赛事集锦生成和赛事新闻稿件;AI直播运编包括赛事智能标签、智能进球预测和智能媒资收录;AI内容监管包括敏感画面处理、敏感信息过滤和人脸识别。

AI+打造数实融合的直播演播新体验

在前面提到的中超赛事中,我们也实现了数实融合的演播。通过上海和北京双演播基地的方式,我们提供了全广电级设备、虚拟增强现实、高规格技术标准、双LED景区+AR虚拟区、多窗图文嵌套、以及虚拟摇臂自走机器人智能化拍摄系统。

我们通过定制虚拟场景、超写实环境,以及球场场景与演播厅的结合、场景自由切换制作、AR/MR技术无缝切换、数实融合演播室等方式,打造了虚拟演播。通过中超定制数智人、数实融合直播,以及数智人IP快速接入、动捕实时直播、AI数据识别、数实孪生引擎、以及数智人对话等技术,实现了数智人解说。

在应用成果上,例如,咪咕AI+超高清技术惊艳亮相中超揭幕战,利用AI+超高清技术实现了中超观赛现场的还原,实现了从“隔屏”到“临场”的转变,助力中超新赛季的新征程,实现了极致临场的8K 120帧直播链路全贯通。

打开网易新闻 查看精彩图片

AIGC是AI技术发展的必然产物

在内容生产领域,AI对超高清技术的影响是显著的。未来的发展空间是巨大的,AIGC(人工智能生成内容)是AI技术发展的必然产物,就像英伟达CEO黄仁勋之前所说的,我们正处于AI的iPhone时刻。

对于AI应用的需求非常巨大,从人工智能技术本身来看,可以分为几个方面。首先是在不同专业领域的技术应用,包括计算机视觉、自然语言处理和多模态。例如,结合ChatGPT和Sora,可以解决通过日常语言提出的问题,将普通语言转化为专业化语言,再将专业化语言应用于Sora,从而在特定专业领域取得突破。

其次是内容理解、内容生成和内容创作,这是主动智能的本质。在人工智能领域中,语义理解非常重要,通过ChatGPT等大型模型,即使不理解具体含义,也可以根据足够的语料进行模仿。

第三是基础技术,从机器学习到深度学习,再到强化学习,最终形成机器类脑混合智能。

可以说,AI将带来拍摄生成内容的供给侧革命,信号来源已经突破传统现实世界的描述方法,开始走向AI强化和数字生成的新阶段。

体积视频是沉浸式超高清的未来

体积视频技术是实现沉浸式互动超高清内容的最有利工具,其发展受益于GPU设备、底层编码和渲染算法的不断进步。其中,关键技术包括点云、NeRF模型和3D高斯模型。

首先,点云是通过3D测量仪器获取的三维场景或物体表面的点数据集合。

其次,NeRF模型是一种利用多个场景图片实现对场景的三维隐式建模的技术,可实现任意视角的合成。

第三,3D高斯模型利用高斯分布在三维空间中表示某一属性(如颜色、密度或光照)的分布情况。

AI技术能够加速体积视频的拍摄生成与渲染过程。Canon演示的视频展示了体积视频技术是一种从捕获的图像中重建三维空间数据的技术,而非简单的图像拼接或切换。这种技术使用户可以从任何位置或角度生成视频,实现真正的沉浸式观看体验。

未来,观众不再局限于平面视角,而是可以转动视角、站立或蹲下观看。他们甚至可以选择成为场景中的某一人物,体验从其视角所见的画面。这种沉浸式的观看方式将改变我们对视频观看的认知和体验。

从1936年至2006年,人们的观看体验基本满足了最初的需求。而2006年至2018年,随着视频的高清化,画面更清晰、动作更流畅。2014年至2026年,则是超高清化的时期,观看体验更加沉浸、真实。

打开网易新闻 查看精彩图片

未来,从2023年至2035年,预计将迎来下一代视听体验的革命,例如元宇宙等概念。通过超高清技术和人工智能等的应用,下一代视频将实现更自由的观看和创作体验。这一趋势将极大地推动整个视听产业的发展。

谢谢各位!