金融界2024年3月5日消息,据国家知识产权局公告,蔚来汽车科技(安徽)有限公司申请一项名为“一种多模态语音端点检测方法、装置、介质及车辆“,公开号CN117649862A,申请日期为2023年12月。

专利摘要显示,本申请涉及数据处理技术领域,具体提供一种多模态语音端点检测方法、装置、介质及车辆,旨在解决如何提升语音端点检测的准确性和稳定性的问题。为此目的,本申请的多模态语音端点检测方法包括:获取同一预设时间段内同一空间内的视频数据和音频数据,基于视频数据获取视频特征,基于音频数据获取音频特征,根据视频特征和音频特征,获取视频特征的权重和音频特征的权重,基于视频特征的权重和音频特征的权重对视频特征和音频特征进行融合,得到多模态特征,基于多模态特征进行语音端点检测,得到语音端点检测结果。通过上述配置方式,本申请能够提升语音端点检测的准确性和稳定性。

本文源自金融界