• OA系统
  • 图书馆
  • English
  • 中国科学院
  • 首页
  • 所况简介
    所况简介
    1964年,为落实国家声学规划,满足国家迫切需要,形成全国声学学科研究中心,经国务院副总理聂荣臻元帅批准,成立中国科学院声学研究所(以下简称声学所),将原中科院电子所的水声、超声、建筑声3个实验室,1958年成立的南海研究站、1960年成立的东海研究站、1961年成立的北海研究站整体纳入声学所。声学所是从事声学和信息处理技术研究的综...
    了解更多+
    现任领导
    李风华
    所长
    库卫群
    党委书记、副所长
    李明庚
    副所长(正局级)
    杨 军
    副所长
    杨 波
    副所长
    王 雷
    纪委书记
  • 机构设置
    领导机构
    所务会 党委会
    咨询机构
    学术委员会 学位评定委员会
    职能部门
    综合办公室 党委办公室 人力资源部 科技发展部 重大任务部 财务管理部 资产条件保障部 质量管理部 保密办公室 监督审计(纪委)办公室 造船办公室

    研究站
    南海研究站 东海研究站 北海研究站
    挂靠机构
    中国声学学会 全国声学标准化委员会 中国科学院声学计量站(CMA)
    研究单元
    声场声信息实验室
    水下环境信息感知实验室
    水下信息技术实验室
    海洋声学技术实验室
    水下航行器实验室
    超声学实验室
    噪声与音频声学实验室
    智能网络与信息处理技术实验室
    语音与智能信息处理实验室
    无人信息系统研究中心
  • 科研成果
    研究领域
    经过五十多年的发展,声学所形成了独具特色的六大研究领域:水声物理与水声探测技术、环境声学与噪声控制技术、超声学与声学微机电技术、通信声学和语言语音信息处理技术、声学与数字系统集成技术、高性能网络与网络新媒体技术。 【详情】
    成果概况
    获奖
    论文
    专利
    专著
    科研进展
    研究人员提出一种基于声阻抗效应的声表面波气体传感新方法
    2025-02-14
    声学所极地声学研究取得突破性进展
    2025-01-23
    研究人员在蜂窝结构中发现反常声传播特征并展示其在脱粘缺陷检测中的潜力
    2025-01-16
    声学所论文被评选为“2024年度中国高影响力数据论文”
    2024-12-11
    声学所王文团队论文获得Nature子刊2024年度热点论文奖
    2024-10-21
    中国科学院声学研究所语音与智能信息处理实验室团队在EUSIPCO 2024 LAP Challenge中夺冠
    2024-09-12
    研究人员提出面向网络加速的FPGA动态部分可重构方法
    2024-09-03
    研究人员提出逐符号运动补偿的256QAM水声通信方案
    2024-08-16
    研究人员提出基于深度学习的地层横波速度层析成像新方法
    2024-07-23
    研究人员利用零群速度特征提出一种复合蜂窝结构脱粘缺陷检测新方法
    2024-07-02
    研究人员提出适用于MIMO系统的目标检测与位置估计方法
    2024-06-03
  • 人才队伍
    院士专家
    汪德昭
    马大猷
    应崇福
    张仁和
    侯朝焕
    李启虎
    汪承灏
    人才招聘
    更多+
    中国科学院声学研究所2025年特别研究助理(博士后)招聘启事
    2025-04-03
    中国科学院声学研究所2025年招聘启事
    2025-04-03
    中国科学院声学研究所资产条件保障部岗位招聘启事
    2025-03-18
    中国科学院声学研究所诚邀优秀青年人才申报2025年度海外优青项目
    2025-03-03
    中国科学院声学研究所监督审计(纪委)办公室管理岗位招聘启事
    2025-03-03
    正高级专业技术岗位
    副高级专业技术岗位
    中科院青年创新促进会会员
    特别研究助理及博士后管理
  • 研究生教育
  • 党建与文化
    活动报道
    更多+
    声场声信息党总支开展“严明岗位工作纪律”主题党日活动
    2025-05-09
    声学所党委举办深入贯彻中央八项规定精神学习教育读书班暨理论学习中心组集体学习会
    2025-05-07
    海洋声学技术党总支召开扩大会议
    2025-04-30
    噪声与音频声学党总支开展“严明岗位工作纪律”主题党日
    2025-04-30
    水下信息技术党总支开展“艰苦奋斗、勤俭节约,带头过紧日子”主题党日
    2025-04-27
  • 交流合作
    学术交流
    更多+
    声学所举行2025年第5期学术交流会
    2025-04-15
    声学所举行2025年第4期学术交流会
    2025-04-15
    声学所举行2025年第3期学术交流会
    2025-04-02
    桐乡市科技局领导与清华大学国重实验室专家学者一行到访北海研究站
    2025-03-04
    白鱀豚新秀论坛暨水下航行器实验室学术交流会顺利举办
    2025-02-25
    科技合作
    更多+
    科技导报社调研声学所
    2025-03-10
    青岛市人大代表慈国庆参加市人大代表座谈会
    2024-03-27
    青岛高新区工委委员、管委副主任张建军调研北海研究站
    2023-12-04
    超快速高灵敏声表面波氢气传感器入选中国科协科研仪器优秀案例
    2023-03-28
    科技部社会发展科技司调研声学研究所相关工作
    2023-03-23
    国际会议
    更多+
  • 科学传播
    工作动态
    更多+
    我们的耳朵——中国科学院青促会北京分会 “爱科学小课堂”第 23期科普活动在声学所举行
    2024-09-10
    北京市中关村中学走进北海站开展科学实践活动
    2024-07-15
    《中国医学影像技术》5T专刊在京发布 国内首次系统性地在学术期刊上介绍和展示世界首创的超高场5T磁共振技术
    2024-06-28
    声学所作品获评2023年度全国优秀科普微视频
    2024-04-01
    声学所参加“嗨,科学!”中国科学院第六届科学节北京主场活动
    2023-10-31
    科技期刊
    科普文章
    更多+
    科普文章丨耳机里的声音为什么会有方向感?
    科普文章丨嘿,siri!嘈杂的酒吧里,AI为什么听不懂指令?
    科普文章丨神奇的主动降噪技术
    科普视频
    更多+
    科普视频丨杨波:揭秘“深海勇士号”载人潜水器
    科普视频丨声音的奥秘
    科普视频丨真空无法传声科普实验
    科普视频丨借声波一臂之力探神秘海底世界
  • 信息公开
    信息公开规定
    信息公开指南
    信息公开目录
    信息公开申请
    信息公开年度报告
    信息公开联系方式
  • 首页
  • 所况简介
    • 机构简介
    • 所长致辞
    • 现任领导
    • 历任主要领导
      • 历任所长
      • 历任党委书记
    • 院所风貌
  • 机构设置
    • 党的委员会
    • 学术委员会
    • 学位委员会
    • 组织机构
      • 领导机构
      • 咨询机构
      • 研究平台
        • 研究单元
        • 重点实验室(工程中心)
      • 职能部门
      • 研究站
      • 挂靠机构
  • 科研成果
    • 研究领域
    • 科研进展
    • 科研产出
      • 获奖
      • 论文
      • 专著
      • 专利
  • 人才队伍
    • 院士专家
    • 正高级专业技术岗位
    • 副高级专业技术岗位
    • 中科院青年创新促进会会员
      • 2011
      • 2012
      • 2013
      • 2014
      • 2015
      • 2016
      • 2017
      • 2018
      • 2019
      • 2020
      • 2021
    • 特别研究助理及博士后管理
      • 博士后公告
      • 博士后规章
    • 人才招聘
  • 交流合作
    • 学术交流
    • 国际会议
    • 科技合作
      • 合作动态
      • 专利转让信息
      • 合作项目
  • 研究生教育
  • 党建与文化
    • 党群园地
    • 组织文化
    • 形象标识
    • 活动报道
    • 文化副刊
      • 诗歌
      • 书画
      • 摄影
      • 散文
  • 科学传播
    • 时间轴
    • 工作动态
    • 科普作品
      • 科普文章
      • 科普视频
      • 其他
    • 科技期刊
  • 信息公开
    • 信息公开规定
    • 信息公开指南
    • 信息公开目录
    • 信息公开申请
    • 信息公开年度报告
    • 信息公开联系方式
  • 重要新闻
  • 党建动态
  • 综合新闻
  • 媒体报道
  • 学术报告
  • 通知公告
  • 最美科学家
  • 专题
  • 专题
    • 深入贯彻八项
    • 2025年全国两会
    • 学习贯彻党的二十届三中全会
    • 科技自立自强之路
    • 科学家精神教育基地
    • 2024年全国两会
    • 平语近人(第3季)
    • 中国科学院2024年度工作会议
    • 科技创新再出发
    • 学习贯彻习近平新时代中国特色社会主义思想主题教育
    • 学习两会精神
    • 学习宣传贯彻党的二十大精神
    • 中国科学院2022年度工作会
    • 2021年终科技盘点
    • 中国科学院“基础研究十条”
    • 十九届六中全会
    • 党史学习教育
    • 不忘初心牢记使命
    • 率先行动
    • 两学一做
    • 防灾减灾
    • 十八届四中全会
    • 喜迎十八大
    • 十九届五中全会
  • 快捷通道
    • OA系统
    • 继续教育网
    • ARP
    • 违法违纪举报
    • 信访渠道
    • 图书馆
    • 正版软件
    • 网站地图
  • 友情链接
    • 新闻媒体
    • 政府机构和组织
    • 国内院校
    • 国内科研机构
    • 国际科研机构
  • 网站纠错
媒体报道
您当前的位置:
首页 媒体报道

2008奥运,实现语言交流无障碍

发布时间:2006-11-16 作者:科技日报
【  小 中 大  】

微信扫一扫:分享

微信里点“发现”,扫一下

二维码便可将本文分享至朋友圈。

  “请问我在哪?去奥运会游泳馆怎么走……”

  2008年,当一个外国人在北京街头寻求帮助时,只要随身携带一个便携式多语言PDA,或者在街头找到一个数字化信息亭,用他自己的母语发出命令、咨询问题,系统就会按相应的语音给出详细的答案。

  然而,863专题“面向奥运的多语言信息服务系统”的智能服务不仅于此。

  在中科院声学所中科信利语音实验室,一台名为“数字奥运模拟系统”展示了“科技奥运”的奇妙之处:通过一个小小的掌上电脑,只要“动动口”,发出语音指令,借助中英交互翻译系统,接通电话、直播现场赛事、查询旅游景点、了解交通路况、与外国人对话等一系列任务轻松搞定。

  作为该专题的“自然环境下语音识别关键技术研究与集成”课题负责人,中科信利实验室主任颜永红近日接受了记者的采访,介绍了“十五”期间项目的实施过程和语音识别技术的最新进展。

  “张张口”,奥运资讯尽在掌控

  “面向奥运的多语言智能信息服务系统”是一个面向奥运会场馆内外,基于宽带网络支持,以多语言智能信息处理平台和海量数据库为核心,由数以百计固定与移动的多语言服务智能体组成的大规模分布式网络系统。用户可以通过计算机、手机、电话、信息亭、移动终端等多种方式进行访问和交流。

  “我们要做的,就是实现在信息亭环境下使用的语音识别引擎,目前支持语种为中文和英文。”颜永红介绍,在首都信息发展股份有限公司支持和协助下,该课题顺利完成了奥组委网站语音导航系统、信息亭环境下使用的语音识别系统以及中文在WinCE下的嵌入式语音命令识别系统的开发,技术指标均达到了要求。

  对于信息亭环境下使用的语音识别系统,基于首信提供的语法文件,实现了在信息亭环境下使用的语音识别引擎,具体包括中/英文天气、中/英文公交、中/英文旅游、中/英文餐饮、中/英文体育赛事10个任务域。开发了一套标准的API,在此基础之上提供了上述10个

  任务域,基于浏览器ActiveX控件的完整的、集成的演示系统。

  对于中文在WinCE下的嵌入式语音命令识别系统,主要完成了识别搜索算法的定点化工作,实现了中文在WinCE下的嵌入式语音命令识别引擎,开发了一套中文在WinCE下的嵌入式语音命令识别引擎API,命令词表可扩展,利用上API,开发一套演示系统,可支持1000个左右命令词的识别。

  提高抗噪性,顾此又不失彼

  “自然噪声环境下的语音识别,是一个复杂的系统问题,涉及语音识别技术的各个模块。传统的方法是在单个模块中寻求提高各个模块的抗噪性,往往顾此而失彼。”颜永红说,本研究在提高各个模块抗噪性的基础上,强调在识别搜索过程中动态整合各个模块,从而在整体上优化了系统的抗噪性能。

  颜永红认为,该课题实现了关键技术的创新,这包括:与语音搜索过程相结合的多特征语音端点检测算法、基于描述语音长时特性的特征提取算法、基于动态贝叶斯网(dy鄄namicbayesiannetwork)研究框架的多特征多尺度声学模型建模方法、基于置信度的语音识别搜索算法、语音识别搜索过程中的在线多信息融合技术和噪声容错的语音搜索算法等。

  此课题中,研发了四个方面的技术:在噪声环境下如何准确判定语音的起终点;如何提取抗噪的语音特征;如何建立抗噪声的声学模型;如何建立语音搜索过程的抗噪性。

  “基于上述的核心技术,结合三个应用环境,我们分别构建了三个系统:奥组委网站语音导航系统、信息亭环境下使用的语音识别系统以及中文在WinCE下的嵌入式语音命令识别系统。”颜永红告诉记者,这三个系统及相应的API已经提交给了首信公司,并且通过了首都信息发展股份有限公司的测试和验收。其中,奥组委网站语音导航系统在2004年北京科博会上展出,系统在展会上的实际复杂噪声环境中依旧可以稳定工作,在相当程度上表现出了系统的抗噪性能。

  夺回语音识别的半壁江山

  “语音是人与人交互最自然的交互方式,通过语音识别技术实现人机之间的语音交互,可极大提高信息服务的自然度,扩展信息服务的人群,奥组委网站语音导航系统就是本课题的重大成果。”

  颜永红举了个例子,残障人士(例如盲人)就可通过该技术与正常人群一样获取网站上的信息。

  谈到语音识别技术的应用前景,他认为,此课题提高了技术面向实际应用的实用性,随着语音识别技术以及奥运多语言智能信息服务示范系统的进一步成熟,该技术有望实际应用于北京2008奥运会的信息服务,从而体现数字奥运的申办理念。同时,信息亭环境下使用的语音识别系统可推广到其他应用领域,例如电信增值服务等;嵌入式语音命令识别系统可应用于智能手机等,可为3G无线网络应用提供增值服务。

  在产业化方面,中科信利语音实验室研发的电信级语音识别产品已在国内20余个省级电信运营商中进行商业化运营;桌面平台语音识别产品已成为英特尔数字家庭台式电脑的捆绑软件;嵌入式平台产品已经集成于国内多家手机厂商和PDA厂商的产品内。

  “以前,我国电信级语音识别技术是100%%国外垄断,现在通过我们的努力,开发出的具有自主知识产权的核心技术,已占该领域的50%%的份额。”颜永红透露,他们目前正在与美国、韩国合作,下一步规划开发车载和电信级语音识别应用。

  “到时,我们也要把自己的核心技术卖到国外去。”对此,他显得自信满满。

   ■数字863

  奥组委网站语音导航系统,支持语种为中文和英文。基本词汇为中英文各100个词,词汇灵活定义,在自然环境下(人流密集的场馆),语音命令正确识别数/全部语音命令数≥80%%。

  实现了中文在WinCE下的嵌入式语音命令识别引擎,开发了一套中文在WinCE下的嵌入式语音命令识别引擎API,命令词表可扩展,利用上API,开发一套演示系统,可支持1000个左右命令词的识别。

  核心技术

  噪声环境下的语音端点检测:可将语音端点检测的正确率相对提高到15%%到20%%。

  抗噪的语音特征提取:与传统的基于MFCC的特征相比,可降低相对错误率8%%以上。

  抗噪语音识别搜索算法:把识别置信度评价技术用于识别搜索过程,去掉置信度较低的搜索路径,提高了在噪声环境下的识别率(相对错误率下降约6%%)。

  噪声容错的语音搜索算法:把消噪过程的局部知识用于语音搜索过程,产生语音搜索过程对噪声的容错性,提高了噪声环境下的识别精度(相对错误率下降约10%%)。

  构建了三个系统:奥组委网站语音导航系统、信息亭环境下使用的语音识别系统以及中文在WinCE下的嵌入式语音命令识别系统。

  中科信利的语音技术获得的奖励:

  2003年度863中文语音识别评测第一名

  2003年美国标准局(NIST)语种识别评测全球第三名

  2004年国家网络安全中心说话人/关键词检测语音评测第一名

  2004年度863中文语音识别评测第一名

  2006年国际音乐处理学术界举办的最高赛事(MIREX)中,获得哼唱检索评测的第一名

   ■链接

  研发的四个关键技术

  噪声环境下的语音端点检测。通常的端点检测算法用的参数是归一化能量或子带能量,科研人员增加了基音频率,频谱变化率等组成多维特征,通过分类器(如神经网络或混淆网络分类器)初步判定语音/噪声,然后结合解码过程得到相对准确的语音端点,另外结合了谐波检测技术,可将语音端点检测的正确率,相对提高约15%%到20%%。

  抗噪的语音特征提取。研究了长时间跨度特征在噪声环境语音识别中的应用。研究了描述协同发音效果的声学特征矢量随时间变化的声学参数轨迹性态。从心理语言学与音韵学的事实知道,分段的长时间跨度的信息对不利环境(噪声环境,语音失真)下的语音理解是极其重要的。因此,长时间跨度特征,包括调制谱特征是我们研究的焦点,具体采用了HLDA方法产生长时特征。虽然长时间跨度特征可能损失短时的细节,但是组合了分段特征和传统的短时特征,实验结果表明,与传统的基于MFCC的特征相比,可降低相对错误率8%%以上。

  抗噪的声学模型建模。研究了基于动态贝叶斯网(dynamicbayesiannetwork)研究框架的多特征多尺度声学模型建模方法,把长时间跨度特征、调制谱特征、短时频谱特征有机地结合在一起,各种不同的特征适用在不同的尺度(音素大类、音素、词、句子)上。综合利用不同尺度语音特征的抗噪性,提高了声学模型的抗噪性。

  抗噪语音识别搜索算法。研究了基于置信度的语音识别搜索算法。识别置信度评价技术用于评价识别结果正确的概率,即识别结果的可信度。传统的识别置信度评价技术主要用于对识别结果的后处理上,本研究把识别置信度评价技术用于识别搜索过程,去掉置信度较低的搜索路径,提高了在噪声环境下的识别率(相对错误率下降约6%%)。

  此外,还研究了一种噪声容错的语音搜索算法。在噪声环境下,尤其是在非平稳的噪声环境下,当前的前端噪声抵消算法对语音流中不同的噪声性态可表现出不同的可靠性和准确性。(科技日报,2006年11月14日)


附件下载:

上一篇:

语音识别技术,让你“动口不动手”

下一篇:

以科学发展观指导科技创新 以科技创新促进和谐社会建设

新闻媒体
  • 新闻媒体
  • 人民网
  • 新华网
  • 光明网
  • 央视网
  • 中国科技网
  • 科学网
政府机构和组织
  • 政府机构和组织
  • 中国政府网
  • 科技部
  • 财政部
  • 工业和信息化部
  • 国家自然科学基金委
  • 国家发展改革委
  • 中国科协
国内院校
  • 国内院校
  • 中国科学院大学
  • 中国科学技术大学
  • 哈尔滨工程大学
  • 南京大学
国内科研机构
  • 国内科研机构
  • 中船重工
  • 地科院
  • 医科院
  • 铁科院
国际科研机构
  • 国际科研机构
  • 美国声学学会
  • Scripps海洋研究所
  • 哥本哈根大学
  • 勒芒大学
旧版回顾 | 网站地图 | 联系我们
© 1996 - 2021 中国科学院声学研究所 版权所有备案序号:京ICP备16057196号-1
京公网安备110402500001号地址:北京市海淀区北四环西路21号中国科学院声学研究所
邮编:100190
官方微信