长江论道|咪咕沈昕:AI技术影响下的超高清业务发展路径探讨|ai技术影响下的超高清业务发展路径探讨|hdr|全场景新品发布会|咪咕|沈昕

2024年5月23-24日，由流媒体网主办，湖北长江云新媒体集团、湖北电信、湖北移动、湖北联通共同协办的「长江论道暨27届智能视听与科技创新产业论坛」在湖北武汉隆重举行。

本届论道以“洞见新格局·智变新视听”为主题，聚焦大屏格局之变，寻找视听向新路径。

在24日上午的主论坛上，咪咕视讯科技有限公司高级系统分析总监沈昕发表了题为《AI技术影响下的超高清业务发展路径探讨》的主题演讲。

以下为演讲全文：

各位好，非常荣幸能够再次参加流媒体论道。关于今天的选题，我思考了很久，发现如果在这个时代不谈一点AI，而仅仅停留在超高清这个话题上，显得有些落伍。我本身是技术出身，所以将更多从技术的角度探讨目前哪些AI技术和超高清技术已经切实应用在大屏业务当中。

此外，我还会讨论哪些技术现已成熟并可大规模应用，哪些技术仍处于探讨阶段，以及哪些技术能够在未来改变内容创作、生产，甚至是交互领域，从而革新我们的视听方式。

AI技术对咪咕超高清业务的影响

首先，我们会更加关注AI技术在视听业务，尤其是超高清业务中的应用，注重用户对音视频内容的主观感受。当前，我们讲的沉浸式体验，旨在为用户提供更加真实、清晰，且更接近现实世界的沉浸式体验。人工智能对整个超高清业务产业链的影响是全流程的，包括内容生产、内容运营以及用户展现等方面。

在内容生产方面，AI技术涵盖了拍摄和内容生成，特别是AIGC（人工智能生成内容）的应用。例如，8K超高清内容采集和编播现场的信息快速编辑，以及在最终呈现给用户时进行画质增强。内容运营领域，我们关注如何高效处理海量内容，包括生成快速花絮、内容拆条等。AI可以识别精彩片段，基于画面和声音密度自动生成内容花絮。此外，在电视剧领域，AI能够自动生成多条不同风格的文字简介，帮助运营人员快速呈现内容。海报营销方面，AI技术也为运营提供了更多选择，使得整个运营过程更加丰富多彩。

在用户交互方面，智能推荐、语音交互和数字人等技术正在改变用户的互动体验。咪咕在内容生产方面，特别是体育内容上的尝试，体现了我们对AI技术应用的深入探索。在这一过程中，我们始终坚持脚踏实地和仰望星空的态度。

脚踏实地——从技术成熟度出发，利用AI和超高清技术实现快速变现，提高技术价值和用户体验，使用户在我们的平台上不仅关注内容，还能享受到更好的体验和互动。

仰望星空——展望AI与超高清技术在内容交互领域的革命性变化，探索未来更多可能性。

AI技术在超高清业务中的具体应用，可以总结为三大类：

第一类是对存量内容的升级。经过时间的沉淀，许多高质量内容的生命力依然很强。例如，最近我们看到《甄嬛传》一年还能为乐视带来1,000万的收入。这些内容在当年拍摄时看起来是高清的，但随着电视机尺寸的不断增大，投射到75寸的电视上时，画质显得不尽如人意。AI技术在画质增强方面大大提高了效率，可以显著提升这些存量内容的视觉体验。

第二类是新质内容的生产。这里我们更加关注超高清内容的采集，特别是体育内容的特殊性，包括及时性、还原度和临场感。AI与超高清技术的结合，可以打通内容采集、制作和播出的全链路，实现更高质量的新内容生产。

第三类是AI技术的未来融合。这是我个人非常关注的领域。以ChatGPT为例，在2023年其发展速度仍是可预测的，但到2024年，随着ChatGPT-4.0和Sora的出现，我们开始不确定AI技术的极限在哪里。未来的视听发展，无论在创作自由度还是视频内容的互动性上，都将与传统的平面视频观感体验有巨大差异。然而，目前我们依然受限于诸多因素，比如大模型的发展、算力的限制以及电力的消耗。我们需要持续关注这些因素的进展，但具体会发展到什么程度，以及如何与现有内容相结合，这是一个长期的命题。

AI+超高清技术应用现状与发展趋势

在讨论AI和超高清应用的现状及未来发展趋势之前，我们首先需要从第一性原理出发，回归到电视业务的本质：最终是为了给用户观看。用户需要精彩的内容和清晰流畅的画质，更进一步是追求沉浸式的观看体验。AI技术的应用可以提升现有画质，加速超高清内容的生产进程，并赋能整个超高清应用链条。

从技术角度来看，我们对视频内容的描述可以分为几个领域，并关注不同的技术参数。这些参数包括：

1. 空间分辨率：我们通常谈论的2K、4K、8K分辨率。

2. 时间分辨率：即单位时间内显示的画面数，也就是帧率。

3. 色彩分辨率：通常指色域范围。

4. 声音分辨率：包括单声道、多声道和立体声等。

未来的视频内容表达，不仅限于传统的平面方式，还会增加景深效果，通过点圆的方式拍摄或展示，使用户能够身临其境地参与其中。

目前，在技术、网络终端和政策的支持下，空间分辨率、时间分辨率和色域等方面已经具备了井喷式发展的基础。例如，2023年亚运会上，咪咕助力中国移动首次实现了8K分辨率编码的国产化（采用AVS3标准），帧率达到了60帧，声音采用了国产的Vivid标准，为家庭用户提供了超高清沉浸式的直播体验。

在探讨技术未来趋势时，我们的目标是让用户能够置身于已经生成的内容世界中，并与之互动，同时尽量缩小用户看到的虚拟现实与真实世界之间的差距。

在超高清画质增强方面，我们关注空间分辨率、时间分辨率和色彩分辨率的提升，主要涉及超分辨率、插帧以及从SDR到HDR的转换。具体来说：

空间分辨率：通常包括2倍的超分，从标清到高清，或从高清到4K，再到8K。当前效果较好的是2倍超分，因为分辨率跨越过大需要补充的细节实在太多，难度也更大。

时间分辨率：主要通过智能插帧实现。利用视频相邻帧之间的空间和时间特征，通过卷积神经网络（CNN）的多层卷积和反卷积，生成新的中间帧，从而实现帧率的提升。

色彩分辨率：结合CNN和生成对抗网络（GAN），对大量的SDR和HDR视频内容进行训练，构建它们之间转换关系的大模型，最终将原有色彩相对贫乏的视频内容转换成色域更广、色彩更丰富的HDR效果。

咪咕在AI+超高清画质增强的实践经验

咪咕在超高清画质增强上已经实践了一年多到两年的时间，目前实现了规模应用，并且正在持续优化大模型以适应各种不同类型的内容。实际上，从2022年开始，咪咕就已在少量内容上应用AI画质增强。到2023年，我们已经实现了AI画质增强内容在26个省、1.4亿用户中的落地。今年，中国移动发布了AI+移动高清产品，其中内容部分由咪咕提供支持。

在实际生产过程中，我们遇到了很多问题。例如，我们曾误认为增强画质就是简单地提升分辨率、帧率和将SDR转换为HDR，效果就会变好。然而，当我们真正去做时，比如采用通用模型升级《狄仁杰之通天帝国》时，因为其整体色彩偏暗淡，强行提升分辨率后，用户的观感反而变差了。HDR的一个特点是黑的地方越黑，采用通用模型转换后，影片的色调比原来的风格更暗淡。

我们认识到技术不应仅仅为了技术本身，而应服务于用户的最终观看效果。经过多次调整，我们发现需要根据内容的特点和风格进行微调。我们不再单纯追求技术指标，而是以用户的主观感受为主，通过均衡亮度和色彩，有针对性地进行画质增强，最终使观看效果比原片更佳。

通过一年多的服务，特别是今年第二季度开始，我们接到了很多关于AI画质增强的服务需求。目前我们已经构建了AI+超高清画质服务体系，主要包括两个部分：

在AI+超高清画质提升服务方面。对内容进行分析，根据不同类型的内容和风格进行相应的画质增强。例如，体育内容更加关注分辨率和帧率；动作片或战争片会采用超分辨率提升和插帧的方法；而节奏较慢的爱情片则主要考虑HDR和超分辨率的结合。针对不同类型的内容和风格，我们选择相应的AI增强模型和策略。内容分类后，针对不同类型的内容使用不同的模型进行处理，以选择最佳的AI增强方向。

从实践经验来看，如果一个内容同时进行超分辨率提升、插帧和HDR处理，生产效率会非常低。通过对内容进行分类，并有选择地进行增强，可以极大地提升整体生产效率。

在内容分发方面，在IPTV大屏上应用时，每个省尤其是省广电对4K或超高清的标准定义不同，可能涉及码率要求、编码方式的要求，而互联网服务通常不支持定制。这使得4K应用形成了门槛。我们通过解决生成码率模板的问题，并针对不同省份的内容分发接口进行调整，最终将内容分发及超高清服务进行了打包，希望能加速整个产业的应用。

超高清应用涉及到更大的信息采集量，素材处理需要增强，播出效果尤其是演播效果结合超高清和AI互动会带来许多新效果，使用户有更多的参与感。因此，在采编方面，我们需要更高标准的超高清拍摄，包括4K和8K，这意味着更多的信息采集量和更高的采集标准。

当大量超高清甚至更多机位的信息回传到直播中心时，我们遇到了许多问题。尤其是体育内容，其及时性非常强，对于成倍增长的信息量，我们如何高效处理并快速传输到演播室再到用户，是一个巨大的挑战。应用AI技术在采编播领域，特别是制播领域，我们需要提高速度，这是我们需要思考的。

一个典型场景是体育解说。如果解说采用更多数字化方式，将球员的信息标出或绘制战术，可以增强用户的互动性。因为很多信息不仅需要通过语言表达，图文结合的方式能让用户有更强的感受。因此，我们在演播时会考虑引入新型的播出方式，增加用户的互动性和体验感。

5G+8K转播引领现场采集的超高清技术革命

让我们来看一下咪咕在现场采集方面所做的工作。典型案例是我们打造了5G+8K转播车。今年，咪咕成为中超独家合作伙伴，助力中超首次实现8K直播，通过新的制作方式打造中超体育赛事的新质内容。

体育赛事尤其注重现场还原度和及时性，因此更快的回传效率、更清晰的画质以及更丰富的信息为直播制作提供了坚实的数据基础。我们的现场拍摄采用了8K 120帧的超高清采编技术，并应用了AVS3编码标准。此外，还实现了超低时延直播和沉浸式数实融合。转播车实际上提供了航母级的服务品质，支持60路外来信号接入，并实现了转制播多模式融合。

通过这些技术和设备，咪咕在体育赛事直播中能够提供更高质量的画面、更流畅的回传速度和更丰富的数据信息，为观众带来更为沉浸和逼真的观赛体验。

在编辑制播过程中，AI的应用实际上变得更加重要，因为它可以成为一个重要的工具，能够重构整个生产过程。

以体育赛事为例，由于体育赛事瞬息万变，对实时性要求很高，因此AI+内容运编能够实现全链路、高效快速的内容生产制播。举例来说，现场的多机位信号过来后，如果仅靠人力进行导播，有时会漏掉一些信息，尤其在制作精彩花絮时，运编人员需要观看大量数据和视频后才能做出判断。这导致需要大量人力参与，生产效率很低。因此，我们引入了AI素材生产、AI直播运编和AI内容监管。AI素材生产包括运营图文生成、赛事集锦生成和赛事新闻稿件；AI直播运编包括赛事智能标签、智能进球预测和智能媒资收录；AI内容监管包括敏感画面处理、敏感信息过滤和人脸识别。

AI+打造数实融合的直播演播新体验

在前面提到的中超赛事中，我们也实现了数实融合的演播。通过上海和北京双演播基地的方式，我们提供了全广电级设备、虚拟增强现实、高规格技术标准、双LED景区+AR虚拟区、多窗图文嵌套、以及虚拟摇臂自走机器人智能化拍摄系统。

我们通过定制虚拟场景、超写实环境，以及球场场景与演播厅的结合、场景自由切换制作、AR/MR技术无缝切换、数实融合演播室等方式，打造了虚拟演播。通过中超定制数智人、数实融合直播，以及数智人IP快速接入、动捕实时直播、AI数据识别、数实孪生引擎、以及数智人对话等技术，实现了数智人解说。

在应用成果上，例如，咪咕AI+超高清技术惊艳亮相中超揭幕战，利用AI+超高清技术实现了中超观赛现场的还原，实现了从“隔屏”到“临场”的转变，助力中超新赛季的新征程，实现了极致临场的8K 120帧直播链路全贯通。