2008年,当一个外国人在北京街头寻求帮助时,只要随身携带一个便携式多语言PDA,或者在街头找到一个数字化信息亭,用他自己的母语发出命令、咨询问题,系统就会按相应的语音给出详细的答案。
然而,863专题“面向奥运的多语言信息服务系统”的智能服务不仅于此。
在中科院声学所中科信利语音实验室,一台名为“数字奥运模拟系统”展示了“科技奥运”的奇妙之处:通过一个小小的掌上电脑,只要“动动口”,发出语音指令,借助中英交互翻译系统,接通电话、直播现场赛事、查询旅游景点、了解交通路况、与外国人对话等一系列任务轻松搞定。
作为该专题的“自然环境下语音识别关键技术研究与集成”课题负责人,中科信利实验室主任颜永红近日接受了记者的采访,介绍了“十五”期间项目的实施过程和语音识别技术的最新进展。
“张张口”,奥运资讯尽在掌控
“面向奥运的多语言智能信息服务系统”是一个面向奥运会场馆内外,基于宽带网络支持,以多语言智能信息处理平台和海量数据库为核心,由数以百计固定与移动的多语言服务智能体组成的大规模分布式网络系统。用户可以通过计算机、手机、电话、信息亭、移动终端等多种方式进行访问和交流。
“我们要做的,就是实现在信息亭环境下使用的语音识别引擎,目前支持语种为中文和英文。”颜永红介绍,在首都信息发展股份有限公司支持和协助下,该课题顺利完成了奥组委网站语音导航系统、信息亭环境下使用的语音识别系统以及中文在WinCE下的嵌入式语音命令识别系统的开发,技术指标均达到了要求。
对于信息亭环境下使用的语音识别系统,基于首信提供的语法文件,实现了在信息亭环境下使用的语音识别引擎,具体包括中/英文天气、中/英文公交、中/英文旅游、中/英文餐饮、中/英文体育赛事10个任务域。开发了一套标准的API,在此基础之上提供了上述10个
任务域,基于浏览器ActiveX控件的完整的、集成的演示系统。
对于中文在WinCE下的嵌入式语音命令识别系统,主要完成了识别搜索算法的定点化工作,实现了中文在WinCE下的嵌入式语音命令识别引擎,开发了一套中文在WinCE下的嵌入式语音命令识别引擎API,命令词表可扩展,利用上API,开发一套演示系统,可支持1000个左右命令词的识别。
提高抗噪性,顾此又不失彼
“自然噪声环境下的语音识别,是一个复杂的系统问题,涉及语音识别技术的各个模块。传统的方法是在单个模块中寻求提高各个模块的抗噪性,往往顾此而失彼。”颜永红说,本研究在提高各个模块抗噪性的基础上,强调在识别搜索过程中动态整合各个模块,从而在整体上优化了系统的抗噪性能。
颜永红认为,该课题实现了关键技术的创新,这包括:与语音搜索过程相结合的多特征语音端点检测算法、基于描述语音长时特性的特征提取算法、基于动态贝叶斯网(dy鄄namicbayesiannetwork)研究框架的多特征多尺度声学模型建模方法、基于置信度的语音识别搜索算法、语音识别搜索过程中的在线多信息融合技术和噪声容错的语音搜索算法等。
此课题中,研发了四个方面的技术:在噪声环境下如何准确判定语音的起终点;如何提取抗噪的语音特征;如何建立抗噪声的声学模型;如何建立语音搜索过程的抗噪性。
“基于上述的核心技术,结合三个应用环境,我们分别构建了三个系统:奥组委网站语音导航系统、信息亭环境下使用的语音识别系统以及中文在WinCE下的嵌入式语音命令识别系统。”颜永红告诉记者,这三个系统及相应的API已经提交给了首信公司,并且通过了首都信息发展股份有限公司的测试和验收。其中,奥组委网站语音导航系统在2004年北京科博会上展出,系统在展会上的实际复杂噪声环境中依旧可以稳定工作,在相当程度上表现出了系统的抗噪性能。
夺回语音识别的半壁江山
“语音是人与人交互最自然的交互方式,通过语音识别技术实现人机之间的语音交互,可极大提高信息服务的自然度,扩展信息服务的人群,奥组委网站语音导航系统就是本课题的重大成果。”
颜永红举了个例子,残障人士(例如盲人)就可通过该技术与正常人群一样获取网站上的信息。
谈到语音识别技术的应用前景,他认为,此课题提高了技术面向实际应用的实用性,随着语音识别技术以及奥运多语言智能信息服务示范系统的进一步成熟,该技术有望实际应用于北京2008奥运会的信息服务,从而体现数字奥运的申办理念。同时,信息亭环境下使用的语音识别系统可推广到其他应用领域,例如电信增值服务等;嵌入式语音命令识别系统可应用于智能手机等,可为3G无线网络应用提供增值服务。
在产业化方面,中科信利语音实验室研发的电信级语音识别产品已在国内20余个省级电信运营商中进行商业化运营;桌面平台语音识别产品已成为英特尔数字家庭台式电脑的捆绑软件;嵌入式平台产品已经集成于国内多家手机厂商和PDA厂商的产品内。
“以前,我国电信级语音识别技术是100%%国外垄断,现在通过我们的努力,开发出的具有自主知识产权的核心技术,已占该领域的50%%的份额。”颜永红透露,他们目前正在与美国、韩国合作,下一步规划开发车载和电信级语音识别应用。
“到时,我们也要把自己的核心技术卖到国外去。”对此,他显得自信满满。
■数字863
奥组委网站语音导航系统,支持语种为中文和英文。基本词汇为中英文各100个词,词汇灵活定义,在自然环境下(人流密集的场馆),语音命令正确识别数/全部语音命令数≥80%%。
实现了中文在WinCE下的嵌入式语音命令识别引擎,开发了一套中文在WinCE下的嵌入式语音命令识别引擎API,命令词表可扩展,利用上API,开发一套演示系统,可支持1000个左右命令词的识别。
核心技术
噪声环境下的语音端点检测:可将语音端点检测的正确率相对提高到15%%到20%%。
抗噪的语音特征提取:与传统的基于MFCC的特征相比,可降低相对错误率8%%以上。
抗噪语音识别搜索算法:把识别置信度评价技术用于识别搜索过程,去掉置信度较低的搜索路径,提高了在噪声环境下的识别率(相对错误率下降约6%%)。
噪声容错的语音搜索算法:把消噪过程的局部知识用于语音搜索过程,产生语音搜索过程对噪声的容错性,提高了噪声环境下的识别精度(相对错误率下降约10%%)。
构建了三个系统:奥组委网站语音导航系统、信息亭环境下使用的语音识别系统以及中文在WinCE下的嵌入式语音命令识别系统。
中科信利的语音技术获得的奖励:
2003年度863中文语音识别评测第一名
2003年美国标准局(NIST)语种识别评测全球第三名
2004年国家网络安全中心说话人/关键词检测语音评测第一名
2004年度863中文语音识别评测第一名
2006年国际音乐处理学术界举办的最高赛事(MIREX)中,获得哼唱检索评测的第一名
■链接
研发的四个关键技术
噪声环境下的语音端点检测。通常的端点检测算法用的参数是归一化能量或子带能量,科研人员增加了基音频率,频谱变化率等组成多维特征,通过分类器(如神经网络或混淆网络分类器)初步判定语音/噪声,然后结合解码过程得到相对准确的语音端点,另外结合了谐波检测技术,可将语音端点检测的正确率,相对提高约15%%到20%%。
抗噪的语音特征提取。研究了长时间跨度特征在噪声环境语音识别中的应用。研究了描述协同发音效果的声学特征矢量随时间变化的声学参数轨迹性态。从心理语言学与音韵学的事实知道,分段的长时间跨度的信息对不利环境(噪声环境,语音失真)下的语音理解是极其重要的。因此,长时间跨度特征,包括调制谱特征是我们研究的焦点,具体采用了HLDA方法产生长时特征。虽然长时间跨度特征可能损失短时的细节,但是组合了分段特征和传统的短时特征,实验结果表明,与传统的基于MFCC的特征相比,可降低相对错误率8%%以上。
抗噪的声学模型建模。研究了基于动态贝叶斯网(dynamicbayesiannetwork)研究框架的多特征多尺度声学模型建模方法,把长时间跨度特征、调制谱特征、短时频谱特征有机地结合在一起,各种不同的特征适用在不同的尺度(音素大类、音素、词、句子)上。综合利用不同尺度语音特征的抗噪性,提高了声学模型的抗噪性。
抗噪语音识别搜索算法。研究了基于置信度的语音识别搜索算法。识别置信度评价技术用于评价识别结果正确的概率,即识别结果的可信度。传统的识别置信度评价技术主要用于对识别结果的后处理上,本研究把识别置信度评价技术用于识别搜索过程,去掉置信度较低的搜索路径,提高了在噪声环境下的识别率(相对错误率下降约6%%)。
此外,还研究了一种噪声容错的语音搜索算法。在噪声环境下,尤其是在非平稳的噪声环境下,当前的前端噪声抵消算法对语音流中不同的噪声性态可表现出不同的可靠性和准确性。(科技日报,2006年11月14日)