随着蓝牙通信、窄带语音通话等实时通信场景对高品质语音的需求日益增长,窄带语音频带扩展(Bandwidth Extension, BWE)技术成为提升用户体验的关键。实际生活中,受限于物理传输带宽及硬件设备约束,语音信号在传输中高频分量缺失严重,导致音质受损、听感沉闷且可懂度下降。尽管基于语音生成模型的传统方法具有较低的运算复杂度,但其恢复质量难以满足用户的高品质语音需求;而现有的深度学习算法虽在音质提升上成效显著,却往往受困于庞大的计算负载,难以兼顾恢复效果与处理时延,无法满足资源受限场景下的实时通信需求。
郑成诗研究员和李晓东研究员研究团队将语音生成的物理机制与深度学习技术相融合,提出了一种基于源滤波器网络(SFNet)的实时语音频带扩展方法。该方法突破了基于深度学习的语音频带拓展算法缺乏物理可解释性的瓶颈,通过模拟人类发声机理,在确保算法具备极低计算复杂度的同时,实现了高质量的全频带语音重建,为实时通信环境下的频带拓展任务提供了新的理论框架与工程范式。

图1 SFNet网络框图(图/中国科学院声学研究所)

图2 4 kHz到24 kHz频带拓展任务下的语谱图结果展示(图/中国科学院声学研究所)
相关研究成果2026年1月发表于语音和音频信号处理顶刊IEEE Transactions on Audio, Speech and Language Processing。
关键词:
语音频带拓展,源滤波器,深度学习。
参考文献:
Dai, L., Ke, Y., Li, A., Li, X., & Zheng, C*. (2025). SFNet: A Two-Stage Source-Filter-Based Neural Network for Real-Time Speech Bandwidth Extension. IEEE Transactions on Audio, Speech and Language Processing, 34, 169-183.

