• OA系统
  • 图书馆
  • English
  • 中国科学院
  • 首页
  • 所况简介
    所况简介
    1964年,为落实国家声学规划,满足国家迫切需要,形成全国声学学科研究中心,经国务院副总理聂荣臻元帅批准,成立中国科学院声学研究所(以下简称声学所),将原中科院电子所的水声、超声、建筑声3个实验室,1958年成立的南海研究站、1960年成立的东海研究站、1961年成立的北海研究站整体纳入声学所。声学所是从事声学和信息处理技术研究的综...
    了解更多+
    现任领导
    李风华
    所长
    库卫群
    党委书记、副所长
    李明庚
    副所长(正局级)
    杨 军
    副所长
    杨 波
    副所长
    王 雷
    纪委书记
  • 机构设置
    领导机构
    所务会 党委会
    咨询机构
    学术委员会 学位评定委员会
    职能部门
    综合办公室 党委办公室 人力资源部 科技发展部 重大任务部 财务管理部 资产条件保障部 质量管理部 保密办公室 监督审计(纪委)办公室 造船办公室

    研究站
    南海研究站 东海研究站 北海研究站
    挂靠机构
    中国声学学会 全国声学标准化委员会 中国科学院声学计量站(CMA)
    研究单元
    声场声信息实验室
    水下环境信息感知实验室
    水下信息技术实验室
    海洋声学技术实验室
    水下航行器实验室
    超声学实验室
    噪声与音频声学实验室
    智能网络与信息处理技术实验室
    语音与智能信息处理实验室
    无人信息系统研究中心
  • 科研成果
    研究领域
    经过五十多年的发展,声学所形成了独具特色的六大研究领域:水声物理与水声探测技术、环境声学与噪声控制技术、超声学与声学微机电技术、通信声学和语言语音信息处理技术、声学与数字系统集成技术、高性能网络与网络新媒体技术。 【详情】
    成果概况
    获奖
    论文
    专利
    专著
    科研进展
    研究人员提出一种基于声阻抗效应的声表面波气体传感新方法
    2025-02-14
    声学所极地声学研究取得突破性进展
    2025-01-23
    研究人员在蜂窝结构中发现反常声传播特征并展示其在脱粘缺陷检测中的潜力
    2025-01-16
    声学所论文被评选为“2024年度中国高影响力数据论文”
    2024-12-11
    声学所王文团队论文获得Nature子刊2024年度热点论文奖
    2024-10-21
    中国科学院声学研究所语音与智能信息处理实验室团队在EUSIPCO 2024 LAP Challenge中夺冠
    2024-09-12
    研究人员提出面向网络加速的FPGA动态部分可重构方法
    2024-09-03
    研究人员提出逐符号运动补偿的256QAM水声通信方案
    2024-08-16
    研究人员提出基于深度学习的地层横波速度层析成像新方法
    2024-07-23
    研究人员利用零群速度特征提出一种复合蜂窝结构脱粘缺陷检测新方法
    2024-07-02
    研究人员提出适用于MIMO系统的目标检测与位置估计方法
    2024-06-03
  • 人才队伍
    院士专家
    汪德昭
    马大猷
    应崇福
    张仁和
    侯朝焕
    李启虎
    汪承灏
    人才招聘
    更多+
    中国科学院声学研究所2025年特别研究助理(博士后)招聘启事
    2025-04-03
    中国科学院声学研究所2025年招聘启事
    2025-04-03
    中国科学院声学研究所资产条件保障部岗位招聘启事
    2025-03-18
    中国科学院声学研究所诚邀优秀青年人才申报2025年度海外优青项目
    2025-03-03
    中国科学院声学研究所监督审计(纪委)办公室管理岗位招聘启事
    2025-03-03
    正高级专业技术岗位
    副高级专业技术岗位
    中科院青年创新促进会会员
    特别研究助理及博士后管理
  • 研究生教育
  • 党建与文化
    活动报道
    更多+
    声场声信息党总支开展“严明岗位工作纪律”主题党日活动
    2025-05-09
    声学所党委举办深入贯彻中央八项规定精神学习教育读书班暨理论学习中心组集体学习会
    2025-05-07
    海洋声学技术党总支召开扩大会议
    2025-04-30
    噪声与音频声学党总支开展“严明岗位工作纪律”主题党日
    2025-04-30
    水下信息技术党总支开展“艰苦奋斗、勤俭节约,带头过紧日子”主题党日
    2025-04-27
  • 交流合作
    学术交流
    更多+
    声学所举行2025年第5期学术交流会
    2025-04-15
    声学所举行2025年第4期学术交流会
    2025-04-15
    声学所举行2025年第3期学术交流会
    2025-04-02
    桐乡市科技局领导与清华大学国重实验室专家学者一行到访北海研究站
    2025-03-04
    白鱀豚新秀论坛暨水下航行器实验室学术交流会顺利举办
    2025-02-25
    科技合作
    更多+
    科技导报社调研声学所
    2025-03-10
    青岛市人大代表慈国庆参加市人大代表座谈会
    2024-03-27
    青岛高新区工委委员、管委副主任张建军调研北海研究站
    2023-12-04
    超快速高灵敏声表面波氢气传感器入选中国科协科研仪器优秀案例
    2023-03-28
    科技部社会发展科技司调研声学研究所相关工作
    2023-03-23
    国际会议
    更多+
  • 科学传播
    工作动态
    更多+
    我们的耳朵——中国科学院青促会北京分会 “爱科学小课堂”第 23期科普活动在声学所举行
    2024-09-10
    北京市中关村中学走进北海站开展科学实践活动
    2024-07-15
    《中国医学影像技术》5T专刊在京发布 国内首次系统性地在学术期刊上介绍和展示世界首创的超高场5T磁共振技术
    2024-06-28
    声学所作品获评2023年度全国优秀科普微视频
    2024-04-01
    声学所参加“嗨,科学!”中国科学院第六届科学节北京主场活动
    2023-10-31
    科技期刊
    科普文章
    更多+
    科普文章丨耳机里的声音为什么会有方向感?
    科普文章丨嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?
    科普文章丨神奇的主动降噪技术
    科普视频
    更多+
    科普视频丨杨波:揭秘“深海勇士号”载人潜水器
    科普视频丨声音的奥秘
    科普视频丨真空无法传声科普实验
    科普视频丨借声波一臂之力探神秘海底世界
  • 信息公开
    信息公开规定
    信息公开指南
    信息公开目录
    信息公开申请
    信息公开年度报告
    信息公开联系方式
  • 首页
  • 所况简介
    • 机构简介
    • 所长致辞
    • 现任领导
    • 历任主要领导
      • 历任所长
      • 历任党委书记
    • 院所风貌
  • 机构设置
    • 党的委员会
    • 学术委员会
    • 学位委员会
    • 组织机构
      • 领导机构
      • 咨询机构
      • 研究平台
        • 研究单元
        • 重点实验室(工程中心)
      • 职能部门
      • 研究站
      • 挂靠机构
  • 科研成果
    • 研究领域
    • 科研进展
    • 科研产出
      • 获奖
      • 论文
      • 专著
      • 专利
  • 人才队伍
    • 院士专家
    • 正高级专业技术岗位
    • 副高级专业技术岗位
    • 中科院青年创新促进会会员
      • 2011
      • 2012
      • 2013
      • 2014
      • 2015
      • 2016
      • 2017
      • 2018
      • 2019
      • 2020
      • 2021
    • 特别研究助理及博士后管理
      • 博士后公告
      • 博士后规章
    • 人才招聘
  • 交流合作
    • 学术交流
    • 国际会议
    • 科技合作
      • 合作动态
      • 专利转让信息
      • 合作项目
  • 研究生教育
  • 党建与文化
    • 党群园地
    • 组织文化
    • 形象标识
    • 活动报道
    • 文化副刊
      • 诗歌
      • 书画
      • 摄影
      • 散文
  • 科学传播
    • 时间轴
    • 工作动态
    • 科普作品
      • 科普文章
      • 科普视频
      • 其他
    • 科技期刊
  • 信息公开
    • 信息公开规定
    • 信息公开指南
    • 信息公开目录
    • 信息公开申请
    • 信息公开年度报告
    • 信息公开联系方式
  • 重要新闻
  • 党建动态
  • 综合新闻
  • 媒体报道
  • 学术报告
  • 通知公告
  • 最美科学家
  • 专题
  • 专题
    • 深入贯彻八项
    • 2025年全国两会
    • 学习贯彻党的二十届三中全会
    • 科技自立自强之路
    • 科学家精神教育基地
    • 2024年全国两会
    • 平语近人(第3季)
    • 中国科学院2024年度工作会议
    • 科技创新再出发
    • 学习贯彻习近平新时代中国特色社会主义思想主题教育
    • 学习两会精神
    • 学习宣传贯彻党的二十大精神
    • 中国科学院2022年度工作会
    • 2021年终科技盘点
    • 中国科学院“基础研究十条”
    • 十九届六中全会
    • 党史学习教育
    • 不忘初心牢记使命
    • 率先行动
    • 两学一做
    • 防灾减灾
    • 十八届四中全会
    • 喜迎十八大
    • 十九届五中全会
  • 快捷通道
    • OA系统
    • 继续教育网
    • ARP
    • 违法违纪举报
    • 信访渠道
    • 图书馆
    • 正版软件
    • 网站地图
  • 友情链接
    • 新闻媒体
    • 政府机构和组织
    • 国内院校
    • 国内科研机构
    • 国际科研机构
  • 网站纠错
科研进展
您当前的位置:
首页 科研成果 科研进展

郑成诗研究员科研团队发表重要综述:时频域单通道语音增强60年——从传统方法到深度学习方法

发布时间:2023-12-22 作者:噪声与音频声学实验室 郑成诗 罗笑雪
【  小 中 大  】

近日,中国科学院声学研究所(以下简称声学所)噪声与音频声学实验室郑成诗研究员研究团队在听觉领域期刊Trends in Hearing (中国科学院期刊分区一区top)发表综述:Sixty Years of Frequency-Domain Monaural Speech Enhancement: From Traditional to Deep Learning Methods (时频域单通道语音增强60年——从传统方法到深度学习方法)。声学所郑成诗研究员、英国剑桥大学教授Brian C. J. Moore和声学所博士研究生罗笑雪为该综述共同一者,郑成诗研究员为论文通讯作者,声学所噪声与音频声学实验室为论文第一单位。该综述全面概述了时频域单通道语音增强60年发展历程的传统方法和深度学习方法:首先总结和分析了两类方法的基本假设,阐明了各自的优势和局限性;接着,使用相同的语料库比较两类共计十余种有代表性的方法处理性能,通过客观评价方法评估了不同方法对正常听力人群和听力受损人群的不同作用;最后总结了现有单通道语音增强方法在助听领域应用所面临的挑战及未来发展趋势。

近60年,研究人员对时频域单通道语音增强技术进行了广泛的研究。早期由于计算性能限制和浅层神经网络泛化能力较弱,对时频域单通道语音增强技术的研究主要集中于传统信号处理的方法。大量的经典传统方法被提出并成功应用于许多音频设备中。近十年来,随着深度学习的出现和发展,神经网络建模能力和泛化性能的提升,单通道语音增强技术性能实现了较大的飞跃。虽然目前已有许多关于传统方法或深度学习方法的综述论文和书籍出版,但这些综述并未将两类方法进行综合分析,也未深入揭示两类方法的各自优缺点,同时也没有对目前主流的时频域单通道语音增强技术进行同数据集下的综合性能比较。

在本综述中,研究人员回顾了过去六十年来提出的许多具有代表性的时频域单通道语音增强方法。其中,传统单通道语音增强方法的流程图如图1所示。传统方法通常不是数据驱动的,往往依赖于语音和噪声的特定统计模型和/或语音的确定性模型。本综述主要从传统语音增强算法可能使用的各模块入手进行梳理总结。其主要包括:噪声估计、先验信噪比估计、语音存在概率估计、谱增益估计、相位处理等。对于大多数传统的频域语音增强方法来说,有四个基本假设:第一,语音和噪声在统计上是独立的;第二,噪声比语音更平稳;第三,在特定统计模型下推导频谱增益函数时,每个时频点频谱在统计上相互独立;第四,语音相位不如语音幅度谱重要。仅有第一个假设是合理的,其他三个假设并不合理,这也就限制了传统算法的应用场景,并约束了基于这些假设的方法的性能上限。

图1 传统单通道语音增强方法的流程图。(图/中国科学院声学研究所)

相比之下,深度学习方法通常由数据驱动,其性能取决于训练数据集、提供的输入特征、学习目标和深度学习网络架构。基于深度学习的单通道语音增强方法的基本流程图如图2所示。这类方法通常包括两个阶段:训练和测试。本综述对两个阶段中可能使用的模块分别进行了梳理总结,其分别为:特征提取、网络结构、学习目标和损失函数。值得一提的是,由于基于深度学习的单通道语音增强方法是由数据驱动的,这一"黑箱"性质侧面反映了这些深度学习方法的一个缺点:研究人员很难详细了解深度学习是如何实现其结果的,也很难解释改变 深度学习架构所产生的性能变化。

图2 基于深度学习的单通道语音增强方法的流程图。(图/中国科学院声学研究所)

尽管传统方法和深度学习方法截然不同,但后者深受前者的影响。此外,还有一些深度学习与传统方法融合的混合方法(Hybrid Method),通过深度学习直接映射传统方法需要的关键参数,例如语音和噪声的功率谱估计和先验信噪比估计等。这些混合方法综合传统算法和深度学习算法的优势,可以在相对有限的计算资源下达到一个较好的性能。

不同听力受损人群对算法设计需求往往也不同,本综述使用 WSJ + DNS和 Voice Bank + DEMAND 数据集对一些传统和深度学习的典型方法进行了综合评估,对两类代表性方法的性能进行直观统一的比较。本综述采用了与正常听力人群和听力受损人群相关的客观指标(HASQI和HASPI)对两类方法进行了综合测试,客观测试结果表明:

    随着听力损失的增加,语音质量会提高,而语音可懂度会降低;

    输入特征的压缩对模拟正常听力人群重要,但对模拟听力受损人群并不重要;

    对于模拟正常听力/听力受损人群,基于深度学习的方法处理结果都相较传统算法有更好的性能体现。

图3 Voice Bank + DEMAND 数据集下不同方法的HASPI(%)和HASQI(%)得分。(图/中国科学院声学研究所)

本综述回顾了过去六十年来提出的许多具有代表性的时频域单声道语音增强方法,主要包括传统信号处理方法和基于深度学习的方法。未来可研究探索的挑战和方向包括:1)研究具有可解释内在机制的深度学习单通道语音增强算法;2)结合传统算法降低深度学习方法的复杂度、存储量、时间延迟;3)开展听力正常人群和不同听力受损人群的主观测评工作。

本研究得到国家重点研发计划项目(No.2021YFB3201702)资助。

关键词:

语音增强;语音去混响;多阶段学习;噪声估计;深度复数网络

参考文献:

Zheng, C., Zhang, H., Liu, W., Luo, X., Li, A., Li, X., & Moore, B. C. (2023). Sixty years of frequency-domain monaural speech enhancement: From traditional to deep learning methods. Trends in Hearing, 27, 23312165231209913. DOI: 10.1177/23312165231209913

论文链接:

https://journals.sagepub.com/doi/full/10.1177/23312165231209913

相关开源代码链接:

https://github.com/cszheng-ioa/Sixty-years-of-frequency-domain-monaural-speech-enhancement


附件下载:

上一篇:

研究人员揭示低温低压氮气中的声频散变化规律

下一篇:

声学所杨军研究员团队应用超材料实现高效水-气跨介质声通信

新闻媒体
  • 新闻媒体
  • 人民网
  • 新华网
  • 光明网
  • 央视网
  • 中国科技网
  • 科学网
政府机构和组织
  • 政府机构和组织
  • 中国政府网
  • 科技部
  • 财政部
  • 工业和信息化部
  • 国家自然科学基金委
  • 国家发展改革委
  • 中国科协
国内院校
  • 国内院校
  • 中国科学院大学
  • 中国科学技术大学
  • 哈尔滨工程大学
  • 南京大学
国内科研机构
  • 国内科研机构
  • 中船重工
  • 地科院
  • 医科院
  • 铁科院
国际科研机构
  • 国际科研机构
  • 美国声学学会
  • Scripps海洋研究所
  • 哥本哈根大学
  • 勒芒大学
旧版回顾 | 网站地图 | 联系我们
© 1996 - 2021 中国科学院声学研究所 版权所有备案序号:京ICP备16057196号-1
京公网安备110402500001号地址:北京市海淀区北四环西路21号中国科学院声学研究所
邮编:100190
官方微信