中国科学院声学研究所语音与智能信息处理实验室参加了中文语音信号处理旗舰会议ISCSLP 2024举办的首届中文听觉注意解码挑战赛(The First Chinese Auditory Attention Decoding Challenge),在任务一(Single-Subject)中以99.06%的准确率获得第一名。
Chinese AAD Challenge是安徽大学联合南京大学与新加坡国立大学在ISCSLP 2024 Special Session & Grand Challenge中发起的挑战赛。本次挑战赛共吸引了来自包括香港中文大学、香港理工大学、中国科学技术大学、之江实验室等著名研究机构的二十多支参赛队伍。该挑战赛旨在推动面向新一代智能助听设备的听觉注意解码技术的发展。神经学研究表明,人在注意不同方位时,大脑皮层脑电信号中部分频带的能量会呈现出特定的分布。基于这种特异性特征,研究人员成功地从脑电信号中解码出被试所关注的听觉注意方位,这被称为听觉注意解码技术。由于该技术在下一代智能助听设备上有着巨大的应用潜力,基于脑电信号的听觉注意解码技术近些年来引起了学术界的广泛关注。
Chinese AAD的数据集为两个不同场景下的实录脑电数据。在Audio-Video场景下,被试会同时听到来自左右两边不同说话人的语音刺激,并看到屏幕上两个说话人的视频。被试需要根据指令将听觉和视觉注意都集中在其中一个说话人上。而在Aduio-Only场景下,被试则只能听到来自左右两边的语音,被试需要将听觉注意集中在特定方位的说话人上。该任务采用二分类解码准确率作为单一指标:给定一段脑电信号样本,参赛者需要判断其来自注意左边说话人的试次还是来自注意右边说话人的试次,判断正确则为解码正确。解码准确率的计算方式为:准确率=(解码正确的样本数目/总样本数目)×100%。
本次挑战赛共设置两个子任务:
任务一:Single-Subject,旨在对每个被试构建个性化的最优解码器。
任务二:Cross-Subject,旨在构建适用于未知被试的最优解码器。
中国科学院声学研究所语音与智能信息处理实验室的李军锋研究员、姚鼎鼎副研究员带领博士研究生邱泽林参与本次比赛,在任务一中取得99.06%的解码准确率,排名第一。
现有的听觉注意解码算法往往采用孤立窗式的解码架构,即将脑电信号划分为相互独立的决策窗而后单独进行解码(如下图所示)。
然而,由于脑电信号存在普遍的特征漂移现象,即使在同一试次中,脑电信号的特征也可能存在较大差异。在本次挑战赛中,KLSACUQ团队借鉴循环神经网络的思想,提出一种全新的流式解码架构StreamAAD,如下图所示。不同于孤立窗式架构,流式解码架构在对每个决策窗进行解码后,会将信息传递至下一个决策窗的解码过程中,使得神经网络能够捕捉脑电信号的时变特征。
该方法对应的论文:StreamAAD: Decoding Spatial Auditory Attention with a Streaming Architecture已被ISCSLP 2024录用,并在今年11月9日的ISCSLP 2024 Special Session上进行了分享、讨论。