金融界2024年11月15日消息,国家知识产权局信息显示,平安科技(深圳)有限公司申请一项名为“唇音同步检测方法、装置、计算机设备及存储介质”的专利,公开号CN 118945393 A,申请日期为2024年8月。

专利摘要显示,本申请实施例属于人工智能领域,涉及一种唇音同步检测方法,包括:解析音视频的视频时间戳和音频时间戳,以根据视频时间戳和音频时间戳对音视频中的视频和音频进行对齐;将音视频分割为多个短片段;将各短片段输入唇音同步检测模型,并通过唇音同步检测模型中的短时模型输出各短片段的视频特征和音频特征;将各短片段的视频特征和音频特征输入唇音同步检测模型中的长时模型,得到音视频的跨模态长时序上下文信息;根据跨模态长时序上下文信息进行唇音同步检测,得到唇音同步检测结果。本申请还提供一种唇音同步检测装置、计算机设备及存储介质。本申请提高了音唇同步检测的准确性。

本文源自:金融界

作者:情报员