OA系统图书馆网站地图所长信箱English中国科学院
 
首页机构概况科研成果研究队伍国际交流科技合作研究生教育文化建设党群园地科学传播信息公开
  综合新闻  
  图片新闻  
  科研动态  
  学术活动  
  媒体报道  
您现在的位置:首页 > 老网站 > 新闻动态 > 媒体报道
颜永红:“搜索”语音识别的未来
2010/05/28 | 作者:转载自科技日报 操秀英 | 【 【打印】【关闭】

 

——人物档案——

颜永红

中科院声学所中科信利语音识别实验室主任。

1990年毕业于清华大学,1995年获得美国俄勒冈研究院博士学位,后在该校任教,曾担任OGI口语研究中心的副主任、英特尔微处理器实验室的主任工程师和人机界面总框架师,英特尔中国研究中心的主任和首席研究员,英特尔全球人机界面学术委员会主席。

2002年任声学所研究员、博士生导师,中科信利语音实验室主任和所长助理。长期从事人机界面研究工作,目前从事的研究领域:大词表非特定人连续语音识别,多模口语系统,嵌入式系统,多媒体数据检索,系统自适应和快速搜索算法。

在不久的将来,互联网将成为一个浩大的音视频档案库,对下一代搜索引擎来说,语音识别技术是关键。

10年前,他曾是英特尔微处理器实验室的主任工程师和人机界面总框架师,英特尔中国研究中心的主任和首席研究员。

如今,他一手创办的中科院声学所中科信利语音识别实验室已发展成为国内语言声学领域规模最大、学科最全的实验室,与实验室同时成立的中科信利技术有限公司也取得了长足的发展。

两个“孩子”的长大让他倍感欣慰。而同时,他错过了两个宝贝女儿的成长,这是他最遗憾的。

“没有什么后悔的,时间无法倒流,只能往前看。”中科院声学所中科信利语音识别实验室主任颜永红说。

一项技术,牵制搜索引擎

“在不久的将来,互联网将成为一个浩大的音视频档案库,对下一代搜索引擎来说,语音识别技术是关键。”颜永红说。

在浩繁的音视频数据库中,要查找出所需的音视频片断,已经成为困扰互联网搜索的难题——目前的技术主要是搜索音视频的关键词,比如音视频的名字或作者,并没有办法搜索音视频内容。而通过语音识别技术,可以把多媒体文件变成可识别的计算机语言,从而有效快速的实现准确搜索。

事实上,语音识别技术也是各大公司竞争的一大焦点。

去年11月份,谷歌推出的语音搜索引起极大关注。用户只需在手机上安装一个软件,然后利用手机原有的麦克风,用普通话对手机说出需要查询的内容,谷歌中文语音搜索会自动返回整合的搜索结果。

“从实验室成立到现在,我们一直在做这方面的技术积累,很快,我们和国内公司合作的语音搜索将面世。”颜永红笑着说。

目前,中科信利的中文电视广播新闻节目识别系统,就已经被多家公司采用,并作为其提供给全国各电视台的数字媒体管理系统中一个核心技术模块。

这个系统立刻引起本报记者的强烈兴趣——当系统“收听”到一段“新闻联播”节目,自动将节目内容生成文字,并且识别准确率惊人地高。

“那是不是我们的采访录音直接可以被转化成文字?”记者顿时兴致勃勃。

“现在还不行。”颜永红笑着说,“因为语音识别包括语言模型和声学模型,新闻语言可以建立语言模型,但口语却很难建立语言模型。”

在语音识别实验室里,视频精确搜索已不是问题。

在一段王楠比赛的视频中,你只要输入“侧身抢拉”、“前三板”等关键词,就可以找到精确到秒的视频。这就意味着,如果你想找一部电影里的精彩片段,只需记得其中的经典台词即可搜索。

两块牌子,连起创新链条

颜永红记得,语音实验室获得的第一笔项目经费来自科技部863项目2003年语音识别领域的比赛。“我们的识别率是最高的,获得了20万元的项目。”

如今,上千万的课题在这里已不是新闻。他领导的这个年轻的团队,已获得授权发明专利22项;软件著作权登记36项;有30余项发明专利正在审查中;在国内外各种学术会议和刊物上,已经发表了200多篇学术文章。

中科信利技术有限公司在业内也小有名气,人们将他看成颜永红的“著作”之一。

事实上,8年前,公司的成立仅仅是给科研人员“画了个饼”。

“科研人员不会成为富翁,但是至少应该体面地工作、体面地生活,所以,成立一个公司,让大家研发出来的技术有一个走出去的载体,这就是田静所长和我当时的想法。”颜永红说。于是,在只有100多万元启动资金的情况下,中科信利成立。

万事开头难。“公司前几年都没有收入,最困难的时候甚至濒临倒闭了。”说这话时,颜永红是微笑的,但笑容背后的艰辛是旁观者无法体会的,而他也不愿多言。

峰回路转,中科信利等到了第一次商机。其研发的产品嵌入式语音软件被应用在了手机上,这就是大家比较熟悉的语音拨号。

“有些人的手机里存了几百上千个电话号码,找起来很麻烦,安装这一软件后,只要对着手机叫出对方名字,即可调出他的资料。”颜永红介绍道。

这个嵌入式语音软件支持语音拨号、命令控制、来电短信提醒、语音读出短信、连呼数字拨号等功能。此外,他们还开发出基于分布式集群架构的语音处理平台TSE。

“在此之前,电信级语音识别引擎技术完全被美国公司垄断,但现在我们完全有底气说,我们占据了大半壁江山。”言至此,颜永红的语调高了很多。确实,在国内,真正能够将语音识别产品拿出来,放在电信网上规模使用的,也只有中科信利。

语音实验室承担着国家科研任务,中科信利公司开发语音技术产品,这两个牌子的作用互为配合,相得益彰。颜永红介绍说:“实用技术的推广应用,不是所有实验室的人员能够胜任的事情。在科技创新的整个链条上,我们分为概念产生、原理研究、原理性样机研制、产品化、市场推广,总共为五个阶段。语音实验室基本承担前三段,后两段则由中科信利技术有限公司完成。”

“十一五”期间的策略是由公司支持实验室,而“十二五”期间,需要大力发展公司。颜永红说:“下一步我们需要积极探索,怎样通过发展公司带来更多机会,打破实验室发展的瓶颈。”

——— 学生印象 ———

他已经过了要勤奋的年纪,但对他而言勤奋已成为一种态度

对于成绩的取得,颜永红反复说:“多亏了中科院和声学所领导,以及各方面的关心支持。”

而在许多人看来,更为重要的或许是他身体力行的“拼命三郎”的精神——早上不论多早,晚上不论多晚,人们都能在语音实验室的大楼看见他忙碌的身影。

董滨是颜永红培养的第二位学生,2006年博士毕业后他进入一家日本企业的研究机构工作,但一年后他选择回到实验室。“颜老师给我最大的影响是勤奋。”想了想,他又说道,“应该叫敬业吧,勤奋用来形容他似乎不太合适。”

也许在学生看来,颜老师已经过了要勤奋的年纪。但对于颜永红自己而言,勤奋早已成为一种态度。

前几年,颜永红是大家公认的“来得最早,走得最晚的人”。而现在,他不得不承认:“精力不如从前了,来得最早还能做到,但已经不是走得最晚的人了。”

但他对学生的第一要求依然是勤奋。

“面试研究生时,我一般都问两个问题:你想达到什么样的目标,你是否足够勤奋。这两个问题可不是那么好回答的,它是用接下来几年时间去验证的。”颜永红说。

“我觉得自己这个导师当得还行,这几年我培养的9名博士生中,有4个拿到了中科院的院长奖励,一位是院优秀毕业生,两位是‘微软学者’。”对于颜永红来说,这个成绩单显然比研发出任何一种新技术更重要。

——— 儿女情长 ———

和科研团聚,与家人分离

2002年11月,一则新闻让颜永红走进公众视野:曾任英特尔中国研究中心主任、首席研究员的颜永红,和他麾下的6位科研人员,先后集体“跳槽”,来到中科院声学研究所,组建中科信利语音实验室。

甚至有媒体以这一事件为切入口,来讨论跨国企业的用人战略调整等等。

这么大的动静或许是颜永红没想到的。

其实早在2001年4月,颜永红就离开英特尔中国研究中心,回到美国俄勒冈研究院工作了一段时间。“因为我太太和孩子都在美国,声学所田静所长当时和我谈的是每年回国工作3个月,后来事情太多,我自己就基本上全年都在国内了,所以说,我是一步一步走回来的。”颜永红颇有些调侃地说。

2004年6月份,当他在俄勒冈研究院的博士生毕业离校时,颜永红也正式辞职回国。

他的太太和两个女儿,至今还生活在美国。“孩子们在那里出生长大,估计很难适应国内的教育强度。”颜永红说。

这8年里,他经历了酸甜苦辣。最苦的莫过于对妻女的思念。“我回国的时候大女儿6岁,小女儿4岁,一个父亲,错过了孩子成长中最关键的时刻,这是我这辈子都没办法弥补的遗憾。”颜永红轻声说,“每次我从美国回来的前一天,都能感觉到她们的情绪很低落,出门的时候真的很心酸。”

好在有了视频聊天,“至少现在我每天都能看到她们了。”每天早上7点钟,只要不开会,颜永红到办公室的第一件事就是上网和她们聊天,因为这个时间刚好是美国波特兰下午三点钟女儿们放学回家的时候。

 
 
 
 
 
  相关新闻
Copyright 1996 - 中国科学院声学所 版权所有 备案序号:京ICP备16057196号 京公网安备110402500001号
地址:北京市海淀区北四环西路21号中国科学院声学研究所  邮编:100190