近期,在由Interspeech举办的2021深度噪声抑制挑战赛(Deep Noise Suppression-Challenge,以下简称DNS-Challenge)中,中科院噪声与振动重点实验室IACAS Lab9团队斩获冠军,将本年度两次DNS-Challenge的冠军全部收入囊中。
DNS-Challenge由微软公司组织每年开展两次,分别由语音信号处理领域知名会议Interspeech和ICASSP轮流举办。今年年初,IACAS Lab9团队曾在ICASSP 2021 DNS-Challenge中夺冠(相关报道链接:http://ioa.cas.cn/xwzx/kydt/202103/t20210330_5987014.html)。
本届DNS-Challenge比赛作为Interspeech2021六大挑战赛之一,主要围绕复杂场景下单通道语音增强任务,以平均主观意见分(Mean Opinion Score, MOS)分为主要评价指标。该竞赛已举办至第三届,在业内极具影响力,吸引了Amazon、快手、字节跳动、英特尔、Sumsang、南京大学、西北工业大学、中国科学技术大学、University of East London、University of California San Diego等众多国内外知名企业和科研院所参与。
本次竞赛共分为宽带场景实时降噪(Real-Time Denoising track for wideband scenario)和全频带场景实时降噪(Real-Time Denoising track for full-band scenario)两个赛道。其中实时赛道要求参赛模型在满足低延时的要求下,对平稳目标、情感音频、英语语音、非英语语音、非英语音调和音乐进行增强。官方提供的测试音频包含仿真语音和各种实际场景下录制的语音,并带有不同程度的混响。相比前两届竞赛,难度大幅度提升,首先是增加了大量的强瞬态噪声,其次是声学环境更为复杂,最后是增强的目标信号更加多样化。
中科院噪声与振动重点实验室李晓东研究员和郑成诗研究员带领研究生李安冬、刘文哲、罗笑雪和余果宸组成IACAS Lab9团队参加了此次竞赛,取得宽带场景实时赛道第一名的成绩,相比于第二、第三名的结果有显著优势。
本次比赛中,IACAS Lab9团队提出了基于深度学习的幅度相位解耦优化的多阶段去噪去混响方案,前两个阶段,只在幅度域实现噪声和混响去除。在上述先验估计的基础上,第三阶段通过残差学习对幅度和相位信息显式修复从而对频谱进行进一步细化。最后使用极低复杂度的后处理模块进一步抑制残留噪声,以提升模型在低信噪比场景下的噪声抑制能力。此外,团队还设计了一种幂律压缩的MSE损失函数有效去除非稳态噪声,显著提升听感,取得宽带场景实时赛道第一名的成绩。
同时,基于该方案撰写的论文 A Simultaneous Denoising and Dereverberation Framework with Target Decoupling 已被Interspeech 2021接收,并在会议上进行了分享交流。
在两位老师的指导下,IACAS Lab9团队依托实验室多年的经验积累,在语音增强领域不断发展创新,在国际竞赛上展现了团队的强劲实力。