2007年10月1日至10月18日,美国国家标准局组织(NIST)了2007 语种识别评测(LRE)。在美国国防部委托NIST承办的语音相关评测中,语种识别评测是近年来的常规评测项目。新千年以来已经举办了3次,分别是2003、2005、2007的语种识别评测。参评单位也由2003年的7家、2005年的12家,发展到2007年的21家。从地域分布上看,参加语种评测的单位均为来自欧洲、北美洲、非洲和亚洲的顶尖研究机构。
为了推动语种识别的实用化进程,NIST在新千年后启动了新的录音平台。新平台下,采集语音的信道由单一信道转变为可变多信道。同时,方言数据也被纳入到新平台的采集范围内。例如,中文语音数据除了汉语普通话外,还包含台湾普通话、粤语、闽南语、吴方言等等。毫无疑问,复杂信道环境与方言等问题都是实际应用时将面临的难题。从2005年开始,NIST将新平台下采集的数据引入到语种识别评测中。在2005年的新数据初步评测中,NIST指定的测试语种仅为7种常用语种。2007年NIST大幅度提高评测难度,将测试语种数目扩展到14种,其中方言数目的总和为26种。除此之外,NIST还增加了开集测试项目。所谓开集测试,就是说被测语音的所属语种可能在指定语种范围之外,系统需要给出拒识的判决。
近年来,语种识别的实用化步伐正逐年加快。全球有29家研究机构报名参加了2007 NIST LRE评测,其中的21家单位提交了系统结果。这是NIST LRE历史上最大规模的一次评测。仅国内就有5家单位参评。国际顶尖的研究机构有:麻省理工-林肯实验室(MIT-LL,美国),剑桥研究中心(Cambridge,英国),布尔诺大学(BUT, 捷克),俄勒冈健康科学大学(OHSU,美国),LIMSI 语音实验室(法国),都灵工艺大学(LPT,意大利),加州大学伯克利分校(美国)等等。有些研究机构还联合起来组成一个参评单位,例如:林肯实验室与IBM公司,新加坡南阳理工与InfoComm研究中心,荷兰TNO实验室与南非Spescom DataVoice公司及SUN大学。研究机构间的强强联合更增加了竞争的激烈程度。
在2007 NIST LRE强手如林的评测中,中科院声学所中科信利实验室取得了机构排名第六的成绩。虽然与国内研究单位相比,中科信利实验室的语种识别技术暂时领先一步,但与世界一流水平相比还有很长的路要走。向世界第一看齐甚至超越,是中科信利实验室一贯的目标。中科信利特种语音组的同仁们将向着这个目标继续奋斗。

