来源:广播与电视技术

翻译:向斌杰

审稿:杨 宇

这是一个能够添加发言者信息的自动转写系统。NHK正在探索如何通过提高节目制作的基础技术,来快速传播信息。

NHK正在研究和开发一种转写系统,该系统可有效地从视频片段中生成语音内容的文本。NHK开发了一种功能,可以通过集成的语音和图像识别来添加说话者的信息。现阶段已经完成了系统的搭建,该系统能够很好地应用到程序和网站的制作当中。

在采访等节目制作中,将采访转写成文字能够很好帮助广播电视行业开展后期等相关工作,然而转写往往是一项费时的工作。通过NHK的转写系统,能够极大程度缩减转写的时间,并保证转写的质量。据NHK介绍,该系统能够缩减近40%的工作时间。

工作人员只需上传转写视频,系统将会自动从中提取关键字,从而帮助工作人员快速掌握视频中心内容,转写的准确率在60%-90%之间。该系统还能够通过面部识别自动区分视频中的人物,从而在转写的文字部分标识出来。

本转写系统所使用的人工智能技术的特点

①语音识别

通过为 AI (人工智能)技术构建适当的训练数据,NHK现在不仅能够识别新闻和新闻报道,还能够识别以前难以识别的音频,例如新闻发布会。

②人脸识别

NHK使用了不易受人脸大小或方向变化影响的人脸检测技术,同时还在约10,000张人脸数据中,通过神经网络技术让系统学习人脸差异,并提取出了“高质量的人脸特征值”。这两项技术让NHK能够从各种条件下拍摄的图像中实现高精度的人脸识别

发言者识别

通过对从语音中计算出的声学特征值进行聚类,为每个语音分配一个暂定的说话者名称,例如a、b、c...。然后,通过人工的方式将暂定说话人姓名与通过面部识别获得的人名联系起来,从而实现自动为每个语句分配说话人姓名。

好文共赏请转发 有话要说请留言