打开网易新闻 查看精彩图片
在 COMPUTEX 期间举办的 GTC 台北上,NVIDIA 发布 NVIDIA AI for Media 全新技术,正在为广播公司、流媒体平台和开发者提供用于直播制作、内容本地化、内容分析以及合成视频检测的实时基础构建模块。
据估算,媒体行业每年产出高达 1800 万小时的直播节目,拍摄 1.5 亿小时的镜头素材,并且沉淀了超过 250 EB 的专业视频存档。然而,这些海量内容中的绝大部分,往往面临着检索成本高昂、本地化速度缓慢以及难以进行规模化分析的困境。
全新的 AI for Media 功能旨在改变这一现状。这些功能既可以通过 NVIDIA RTX PRO 工作站本地部署,也能在云端运行,能够实现自动化的内容本地化流水线、可检索的存档元数据,以及 AI 辅助的直播与后期制作工作流。
此次更新包括:
- 多语言唇形同步(LipSync):能够实时将屏幕上人物的口型与配音音频精准同步,并且现在新增了对法语、德语和西班牙语的支持。
- 增强的主动发言者检测(Active Speaker Detection)功能:可以自动追踪摄像头画面中的发言者,让制作团队可以轻松地实现自动化操作,精准聚焦并突出显示当前正在说话的人脸。
- 增强的 NVIDIA RTX 视频超分辨率(NVIDIA RTX Video Super Resolution)和 RTX 视频帧生成(RTX Video Frame Generation)功能:利用 AI 技术在搭载 RTX 的系统上对视频输出进行画质提升与流畅度优化。
- 一套符合 SMPTE ST 2110 标准的 NVIDIA NIM 微服务,专为基于 IP 的实时媒体管线打造,将媒体画质增强从传统的“后期制作”环节,直接带入到了“实时广播基础设施”领域。这些 NIM 微服务涵盖了主动发言者检测、视频超分辨率、唇形同步以及专业录音棚级语音增强(Studio Voice)。其中,SMPTE ST 2110 是一套针对音频、视频和数据流传输的行业专用标准规范。
- NVIDIA 合成视频检测器是一款 NIM 微服务,它仅需短短 22 毫秒,就能以约 92% 的准确率识别出 AI 生成的视频。随着合成媒体内容正如潮水般涌入各大网络平台,这款检测器为新闻编辑室和内容平台提供了一项强有力的工具,能够在虚假或经过篡改的影像触达观众之前,及时将其标记出来。
了解更多关于 NVIDIA AI for Media 的信息:
https://www.nvidia.cn/industries/media-and-entertainment/
探索 NIM 微服务目录:
https://build.nvidia.com/
热门跟贴