由于语音通常受到背景噪声和环境干扰的影响,语音增强技术在过去几十年中深受关注。近年来,基于深度学习的语音增强方法在应对非平稳噪声方面表现突出,并可显著提高语音的可懂度。对双耳听力的研究表明,保留语音中的空间信息有助于人耳对噪声环境中语音的理解,然而,大部分语音增强方法的目标为单通道语音信号,不能保留原有的空间信息。
对此,中科院语言声学与内容理解重点实验室的孙兴伟与其导师李军锋研究员等人研究语音增强方法以及双耳信号空间信息保持,提出一种基于深度学习的保持空间信息的双耳语音增强方法,在语音增强的同时保留其空间信息,有助于提高人耳对语音的理解能力。相关研究成果近期发表于国际学术会议 2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP 2019)。
本研究将双耳信号的左右通道组合为一个复数信号,将一个双通道增强问题转换为一个在复数域处理的单通道增强问题。随后研究人员提出一种复数域时频掩蔽方法,并训练一个复数神经网络对其进行估计,最终应用于单通道复数信号进行语音增强并重建双耳信号。
实验结果表明,基于复数神经网络的双耳语音增强方法将语音信号的信噪比提升超过10dB,并且能够保持语音原有的空间信息。
此双耳语音增强方法可应用于助听器等设备,帮助人耳理解语音。
本研究得到国家自然科学基金(11590770-4,11722437, 61650202,U1536117,61671442,11674352,11504406,61601453),国家重点研发计划(2016YFB0801203, 2016YFC0800503, 2017YFB1002803)和 新疆维吾尔自治区重大科技专项(2016A03007-1)资助。
图1 算法系统框图(图/中科院声学所)
关键词:
双耳语音增强;深度学习;空间信息
参考文献:
SUN Xingwei, XIA Risheng, LI Junfeng, YAN Yonghong. A Deep Learning Based Binaural Speech Enhancement Approach with Spatial Cues Preservation. ICASSP 2019, pp. 5766-5770. DOI: 10.1109/ICASSP.2019.8683589
论文链接: