我单位“远场声学信息人机交互关键技术及其应用”项目提名2020年度北京市科学技术奖,现进行公示。公示期: 2020 年 11 月 4 日至 11 月 10日,公示期内如有任何单位或个人对公示内容有异议的,请您以书面方式向中国科学院声学研究所科技发展部(公示单位科管部门名称)反映,以单位名义提出的,需加盖单位公章;以个人名义提出的,需要提供个人身份证明文件。
联系人及联系电话:金老师 010-82547935
中国科学院声学研究所
2020年11月4日
公示内容:
项目名称:远场声学信息人机交互关键技术及其应用
候选单位(含排序):1.中国科学院声学研究所; 2.北京声智科技有限公司; 3.北京建筑大学
候选人(含排序):1.杨军; 2.陈孝良; 3.杨飞然; 4.吴鸣; 5.冯大航; 6.程晓斌; 7.常乐; 8.余紫莹; 9.周若华; 10.苏少炜; 11.许勇; 12.李良斌; 13.武帅兵; 14.刘博; 15.栾天祥
提名意见:
本项目突破了远场复杂声学场景下语音交互的声学感知和语义理解关键技术,融合了基于经典阵列信号处理的模型驱动算法和基于深度学习的数据驱动算法,开发出具有自主知识产权的远场声学信息人机交互系统和平台,提高了远场人机交互质量和用户体验,促进了人工智能技术在声学信息交互领域的落地。本项目的推广应用产生了重大的经济效益和社会效益,技术成果在智能音箱、AI数字人红外测温与监管系统、智慧电梯与安全监管平台等多个领域获得成功应用,服务海内外包括中国移动、华为、百度、小米、阿里、腾讯等120家企业,拥有4000多万用户,产生直接经济效益超1.6亿。本项目成果产品国内首款智慧电梯与安全监管平台和AI数字人红外测温与监管系统已迅速落地北京、武汉、上海、青岛、深圳等地的新冠肺炎定点医院,以及全国人大机关办公楼、北京东城区政协、中国残联大厦等等海内外近百个城市的办事服务中心、机场、酒店、办公楼宇、区民小区等公共场所,为抗击新冠疫情作出了突出贡献,获得工信部突出贡献企业表彰,入选工信部AI助力疫情防控重点物资清单。
提名该项目为北京市科学技术奖科学技术进步奖(类别:技术开发类)(一等奖和二等奖)。
项目简介:
声学信息人机交互对人工智能产业发展具有重要战略意义,远场交互是声学信息人机交互产业的创新升级方向。从近场交互到远场交互,噪声、混响、回声等干扰带来了语音识别、语义理解等难题,亟需攻克。本项目面向声学信息人机交互产业落地的重大需求,突破了多项远场语音交互的声学感知和语义理解关键技术,构建了阵列信号处理融合深度学习的先进声学模型和通用语义理解模型,形成了涵盖麦克风阵列、前端声学处理、语音唤醒、语音识别、语义理解、语音合成等技术深度融合的端+云一体化系统,大幅提高了系统泛化能力和识别精度,促使我国智能产品万物互联现象级产业直接对标超越欧美标杆企业。主要技术创新点:
1. 提出了不同场景下低复杂度稳健的时频域自适应滤波算法,解决了高度依赖双端对讲检测、收敛速度慢等难题,实现了单通道和多通道回声抵消系统应用。
2. 提出了基于麦克风阵列噪声消除和盲源分离等方法,建立了带噪语音的特征修复技术,去除了人声及背景噪声干扰,大幅提升了系统的识别性能。
3. 提出了抗混响、抗干扰的低复杂度声源定位方法,有效解决了复杂声学环境特别是电梯、家居、会议室等场景的声源定位问题。
4. 提出了加权有限状态转换机解码图唤醒算法,实现了多个声学模型深度融合的在线语音识别引擎,提高了系统在各种环境下语音识别、唤醒的性能。
5. 提出了基于用户对话交互历史的词汇-领域词库映射算法、领域感知的词向量训练算法,提高了领域识别精度,提升了信息交互的流畅度与准确性。
本项目在国家科技支撑计划等课题支持下,开发出具有自主知识产权的全球领先的远场声学信息人机交互系统,技术成果形成了智能音箱、AI数字人红外测温与监管系统、智慧电梯与安全监管平台等产品在多个领域落地应用,占据了全球70%以上的中文远场智能语音市场。本项目获授权发明专利44项、实用新型专利37项、软件著作权61项,发表论文135篇,参与制定国家标准15项、团体标准15项,产生直接经济效益超1.6亿。本项目促进了人工智能技术的推广应用,产品覆盖家居、会议、军工、医疗、交通等行业,服务120多家企业,拥有4000多万用户,数十亿次人机交互真实场景的规模验证,服务海内外客户包括中国移动、华为、百度、小米、阿里、腾讯等。实现了先进的智能交互体验,有力促进了北京建设具有全球影响力的科技创新中心。本项目产品在抗击新冠疫情期间作出了突出贡献,获得工信部突出贡献企业表彰,入选工信部AI助力疫情防控重点物资清单。
附件:主要支撑材料目录