在我们生活的生态环境中,无时无刻发声这各种各样的声音,我们把这些声音称为“环境声音”,通过研究环境声音的数据采集分类、声音识别等技术,对于环境安全与监控、分析和研究环境、预测环境的变化都有着重要的意义,但在实际的数据采集、声音识别过程中仍存在诸多困难。

主要面临以下困难:

1、信噪比的要求

任何声音处理算法性能都会受到信噪比的影响,在信噪比较低的环境下声纹检测算法性能会急剧下降,影响检测结果。

2、数据样本的采集

无论传统机器学习算法还是深度学习算法,都要求建立标准的声音数据库,而在数据采集与标定环节存在较大难度,为了训练出泛化性高的模型,对样本量、差异性、同质性都有很高要求,而这需要大量时间和人力采集与标定声音数据。

3、杂声、混响的影响

真实应用环境中各种人生、杂声、混响产生的干扰声,给声纹检测也会带来新的不确定性。

综合上述可见,想要通过现有技术识别环境中目标声音,或辨别目标声音确定目标状态,是需要有充足声音数据样本的支撑,目前在缺乏数据样本的情况下,我们只能通过对一种或多种声音信号的特征分析来检测目标声音有无,想达到对目标声音辨别目标状态还需数据的沉淀。