应院语言声学与内容理解重点实验室邀请,美国哥伦比亚大学应用物理与应用数学系资深研究科学家兼教授陈成钧于2016年5月4号访问声学所,并做了题为“基音同步语音参数化方法及其应用”的学术报告。
陈成钧首先介绍了传统的非基音同步的语音参数化技术,分析传统参数化技术的局限性,并且提出自己的参数化特征(Timbron Vector)。传统非基音同步技术将语音信号首先分割为长度相同的(典型值为25毫秒)时间位移相同的(典型值为 10毫秒)互相重叠的帧。每一个帧乘上一个窗函数(典型的是Hamming窗函数),然后提取线性预测系数(LPC)或MEL倒谱系数(MFCC)。由于没有把基音和音色分开,通过LPC或MFCC再生的语音质量低,不能形成高保真度的语音合成系统。由于许多帧跨越了音素界线,一组 LPC或 MFCC系数常常不能代表一个确定的音素,因而限制了语音识别系统的准确度。陈教授经过十多年的努力,通过对大量语音数据的分析,建立了人类发音新理论:音色元波理论。陈教授通过深入浅出的讲解,辅以生动的演示,向大家展示了这一参数同步化的语音参数化系统的优越性能,并展望了这一技术在语音合成、语音识别以及助听器上的可能的应用前景。
陈成钧教授的报告引起了大家的广泛兴趣。参加报告的师生和他进行了热烈的讨论。报告会之后,陈成钧教授观看了实验室相关技术的演示。最后,陈成钧教授和实验室相关人员就双方可能的合作和交流等事宜进行了沟通,都表示愿为进一步增进双方的学术交流和科研合作共同努力,实现互助共赢。