在声学环境中利用麦克风阵列拾取目标声源信号时,不同通道的观测信号会出现能量和相位的差异,根据这些差异可以判断出目标声源的波达方向(即信号到达阵列参考阵元的方向角)。然而,当环境中存在方向性噪声或其他非目标声源干扰时,声源定位算法一般无法有效地区分目标声源方位和干扰声源方位,往往需要依赖额外的信息(如视觉信息)来辅助定位目标声源。
近日,中国科学院语言声学与内容理解重点实验室博士王子腾及其导师李军锋研究员等人提出了一种基于混合沃森模型和时频选择网络的目标声源定位方法,将声源定位和声源分离相结合,提供了新的目标声源定位思路。相关研究成果已在线发表于国际学术期刊Applied Sciences 2018年第8期。
根据信号的时频稀疏性假设,当存在噪声干扰时,部分时频点的目标声源的能量仍高于干扰声源的能量。已有的研究表明,仅利用这部分时频点仍可以有效地确定目标方位,而如何分离出这些时频点则成为关键。
研究人员首先设计了深度神经网络用于估计目标声源的二值时频掩蔽,通过采用目标声源的一条先验语句作为辅助输入,引导掩蔽估计网络只关注目标声源信号。其次,利用混合沃森模型建模时频点的观测向量,同时利用通道间的能量差和相位差信息,提高了定位性能。
目标声源时频选择网络以及定位流程示意(图/王子腾)
实验中通过平均定位误差以及大误差比率指标,分别评估了存在噪声干扰或非目标说话人干扰时定位算法的性能,验证了该方法的有效性及鲁棒性。
本研究得到了国家自然科学基金(Nos. 11504406, 61601453)资助。
关键词:
目标声源定位;混合沃森模型;深度时频选择网络
参考文献:
WANG Ziteng, LI Junfeng, YAN yonghong. Target Speaker Localization Based on the Complex Watson Mixture Model and Time-frequency Selection Neural Network. Applied Sciences. 2018, 8(11), 2326; DOI:10.3390/app8112326.
论文链接:
https://www.mdpi.com/2076-3417/8/11/2326