7月1日,由电气和电子工程师协会(IEEE)声学信号处理技术委员会(AASP)组织的声学场景识别与事件检测(DCASE2019)比赛公布成绩,中科院语言声学与内容理解重点实验室的团队获得了音频场景识别子任务(Task 1A)的第一名。本次参赛团队的指导老师为张鹏远研究员,团队成员包括陈航艇、刘作桢、柳宗铭等人。
DCASE2019挑战赛设置了声学场景检测、音频事件标记、音频事件定位和检测、室内音频事件检测、城市音频标记共5大任务。其中,匹配设备下的音频场景识别是所有任务中历史最为悠久、参加人数最多、竞争最激烈的比赛。今年共有38支队伍参赛,分别来自中国科技大学、香港中文大学、北京邮电大学、萨里大学(University of Surrey,英国)、布尔诺技术大学(Brno University of Technology,捷克)等国内外顶尖高校,以及英特尔(美国)、三星(语音实验室,中国北京)、LG(韩国)等知名企业。
音频场景分类的目的是识别出录制音频的特定场景,如地铁、公园、机场等,从而使穿戴式设备、智能机器人感知周围的环境信息并做出相应运动反射。
基于深度学习和数据增强的音频场景分类系统(图/中科院声学所)
在现实生活中,音频场景识别可以广泛应用在移动设备以及智能机器人上。移动式设备通过感知外界环境信息从而智能地切换模式;对于机器人,听觉和视觉信息相辅相成,而在一些极端环境,音频信息的感知相对容易,且处理速度快,有独特的优势。在本次比赛中团队成员探索使用了多种长短时特征,并且结合基于深度学习的数据增强手段,达到了85.2%的测试准确率,大幅领先第2名1.4%,并且远远超过了人类的分辨能力。
DCASE竞赛由伦敦大学玛丽皇后学院数字音乐中心和Institut de Recherche et Coordination Acoustique/Musique等机构于2013年组织发起,是目前声学事件领域最权威的竞赛。
大赛结果:
http://dcase.community/challenge2019/task-acoustic-scene-classification-results-a#task-description
注释:
人类对场景的分辨准确率的中位数大约为75%,参见Barchiesi D , Giannoulis D , Stowell D , et al. Acoustic Scene Classification: Classifying environments from the sounds they produce [J]. IEEE Signal Processing Magazine, 2015, 32(3):16-34.