中国科学院噪声与振动重点实验室IACASlab9团队在近期举办的语音信号处理领域顶级会议ICASSP 2021深度噪声抑制挑战赛(Deep Noise Suppression-Challenge,以下简称DNS-Challenge)中斩获冠军。
DNS-Challenge是由微软公司组织的ICASSP 2021五大挑战赛之一,主要围绕复杂场景下单通道语音增强任务,以平均主观意见分(Mean Opinion Score, MOS)分为主要评价指标。该竞赛已举办至第二届,在业内极具影响力,吸引了搜狗、百度、亚马逊、西北工业大学、首尔大学、奥登堡大学等众多国内外知名企业和科研院所参与。本次挑战赛共分为实时降噪(Real – Time Denoising track)和个性化降噪(Personalized Deep Noise Suppression track)两个赛道,其中实时赛道要求参赛模型在满足低延时的要求下对情绪化音频、英语语音、非英语语音、歌声和音调进行增强。官方提供的测试音频包含仿真语音和各种实际场景下录制的语音,并带有不同程度的混响。相比第一届挑战赛,本届挑战赛中情绪化音频和歌声的引入以及更为复杂的声学录音环境都显著提升了比赛的难度。
中科院噪声与振动重点实验室的李晓东研究员和郑成诗研究员带领博士研究生李安冬和罗笑雪以及硕士研究生刘文哲组成IACASlab9团队参加了此次挑战赛,取得实时赛道第一名的成绩,ANOVA(Analysis of Variance)分析结果表明,相比于第二、第三名的结果有显著优势。
在本次挑战赛中,IACASlab9团队提出了基于深度学习的幅度相位两阶段解耦优化方案,首先对语音的幅度谱进行粗估计,在信噪比提升后的粗谱的基础上利用复数谱映射网络估计幅值和相位的残差对粗谱进行细节修复,最后使用极低复杂度的后处理模块进一步抑制残留噪声,以提升模型在低信噪比场景下的噪声抑制能力,最终取得实时赛道第一名的成绩。
同时,基于该方案撰写的论文 Decoupling Magnitude and Phase Optimization with a Two-Stage Deep Network 已被ICASSP 2021接收,将在会议上进行分享交流。
IACASlab9团队依托实验室多年的经验积累,在语音增强领域不断发展创新,于国际竞赛中展现了团队的强劲实力。