声学所院噪声与振动重点实验室助理研究员彭任华及其同事提出了一种在线性残差域利用人耳听觉特性约束的单通道语音信号增强滤波器,可显著提高语音质量。相关研究成果日前发表于国际学术期刊 Speech Communication 2018年2月第96卷。
近年来,传声器阵列的应用越来越广泛,但在低成本设备中,绝大部分仍在使用单传声器录音方案。受到录音环境噪声和混响等因素的影响,单传声器语音信号质量会出现显著下降。
传统的单通道语音信号增强算法,利用谱减算法,通过估计噪声及混响的功率谱密度,与带噪信号相减,实现语音信号增强。中科院噪声与振动重点实验室音频研究组曾提出一种广义特征值算法,即在线性残差域利用广义特征值分解方法增强单通道语音信号,并证明了在线性残差域,噪声及晚期混响可以采用相同的算法处理框架。
然而,在低信噪比条件下,谱减算法和广义特征值算法在增强信号过程中均会出现大量可听“音乐噪声”(频率和时间轴上随机出现的短时单频信号),严重影响算法性能。郑成诗副研究员根据经验指出:“人耳听觉响应特性曲线在音乐噪声信号抑制方面具有非常大的应用前景”。
利用人耳噪声掩蔽曲线指导残留“音乐噪声”的抑制,研究人员推导了在线性残差域的噪声掩蔽曲线到广义特征值的映射关系,以及噪声掩蔽曲线约束的最优滤波器,将这个最优滤波器应用于信号增强。在语音段以及静音段带听觉特性约束的广义特征值如下图所示(绿线)。
带听觉特性约束的广义特征值(图/彭任华)
通过比较增强信号的分段信噪比(segmentSNR)、感知语音质量评价(PESQ)、以及语音混响调制能量比(SRMR)等客观指标,新算法相比传统算法具有更好的算法性能,MUSHRA(MUltiple Stimuli with Hidden Reference and Anchor)主观测听实验*进一步表明了本文算法在仿真实验以及实际实验中的有效性。
* MUSHRA(MUltiple Stimuli with Hidden Reference and Anchor)主观测听实验:隐藏参考和基准的多激励测试,适用于对中等质量的音频信号进行主观评价。这是一种双盲的多激励音频信号听音比较测试方法,要求选用有经验的听音人,首先进行培训以熟悉测听过程并了解测试样本的损伤程度,再开展正式测试。(ITU-R Recommendation BS.1534. Method for the subjective assessment of intermediate quality level of coding systems[S]. Geneva Switzerland: ITU-T, 2001. 转引自赵毅. 空间音频编码及多声道音频恢复技术研究[D].北京理工大学,2015.)
关键词:广义特征值分解,线性预测,语音去噪去混响
参考文献:
PENG Renhua, TAN Zhenghua, LI Xiaodong, ZHENG Chengshi, A Perceptually Motivated LP Residual Estimator in Noisy and Reverberant Environments. Speech Communication(Volume 96, February 2018, Pages 129–141). DOI: 10.1016/j.specom.2017.12.004.
论文链接:
https://www.sciencedirect.com/science/article/pii/S0167639316301716