语音识别技术，让你“动口不动手”

发布时间：2006-11-16 作者：科技日报

　如果没有鼠标和键盘，如何从成百上千首MP3歌曲中找到只想听的那一首？如何从网络的海量信息中准确搜索到相关内容？答案很简单，只要“张张嘴”，对着麦克风说出歌名、歌词或者哼唱一段旋律，短短几秒钟，就可以搜索到想要的歌曲；讲一个关键词或句子，电脑就会从特定网站检索出相关网页，并具有较高的容错功能。

　　看文字，人们可以“一目十行”，根据自己的喜好挑选内容。可是随着计算机技术的发展，当多媒体文档取代普通文字时，如何在长达几小时的语音资料中迅速有效地进行搜索？

　　10月27日，中科院声学所研究员、中科信利实验室主任颜永红为记者介绍了他们实验室的最新语音识别技术。

　　说个关键词，即能检测到相关音频文件

　　面对一段长达几个小时的音频文件，只想听自己感兴趣的几分钟片断，如何迅速检索到相关的内容？即使采取快进、后退的方式，也很不方便。这也是记者常常面对信息量浩如烟海的录音文件，常常遭遇的无奈。

　　“关键词检测引擎”就能将这个难题迎刃而解。只要说出一个关键词，系统就能迅速搜索到音频文件的相关位置，并进行播放。该引擎对于用户定制的关键词列表，可在音频流中精确定位包含关键词的音频段，并给出报警。关键词列表可即时配置、即时使用。该引擎框架及核心算法与语种无关。在同时跟踪30个关键词时，对于朗读式语音，等错率小于15%%，单线程检测速度为0.5倍实时左右。

　　广播电视新闻，自动转成文字

　　该引擎基于中科信利大词表、非特定人、连续语音识别技术，能够以在线或离线方式将电视新闻节目中的音频自动转换为文字；并可自动滤掉音乐、广告等非表义音频段。系统采用的核心算法与语种无关，且支持海量并行处理。对于不同的电视新闻类节目，系统的识别正确率可达90%%以上，单线程识别速度可达到实时。

　　颜永红介绍，这种类似“听写机”的系统，将音频通过听写机转化成对应的文字，处理检索文件将更加方便。它在电视台、广播电台等媒体应用广泛，还能代替会议活动的速录。

　　口语学习，让你发音准确无误

　　“有些人因为地方口音等问题，存在汉语普通话和英语口语学习的困难。我们还开发了一种专为学习者提高口语发音和表达能力的工具包。”颜永红介绍说，

　　该引擎可用于帮助学习新语言的用户找出他（她）发音中不准确的地方，这包括：语音检测、发音准确度分析评估模块、音调分析识别模块、时长分析评估模块、能量分析评估模块以及综合评估模块。

　　对于所提供的学习材料（字，词或句子），不仅评估学习者总体上的发音准确度，而且能够给出学习者对于每句话、每个词甚至每个音素上的得分，并根据发音不足提出改进的建议。

　　据悉，这套口语语言学习引擎已经英语教学等领域广泛商用。（转载自2006年11月14日《科技日报》）

附件下载：

颜永红：给年轻人提供出名的机会

2008奥运，实现语言交流无障碍