天富娱乐平台-天富在线登录测速网址【官网首页】

【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!

无人机嵌入式声源定位(SSL)在恶劣的光照条件或闭塞条件下具有有趣的应用前景。然而,无人机严重的自我噪声可能导致录制的麦克风信号的负信噪比,这使问题变得复杂。在该研究中,研究者使用无人机(UAV)内嵌的8通道立方型麦克风阵列的录音,介绍了研究者在无人机内嵌SSL方面的工作。

虽然研究者通过使用速度相关谐波抵消技术(SCHC)来降低自我噪声来改进基线方法,但研究者主要关注的是利用深度学习技术来解决这一具有挑战性的问题。在这里,研究者提出了一种用于SSL的端到端深度学习模型,称为DOANet。DOANet是基于一维扩展卷积神经网络,它从原始音频信号中计算目标声源的方位角和仰角。

使用DOANet的优点是,它不需要任何手工制作的音频特性或自我噪声降低DOA估计。然后,研究者使用提出的方法和基准方法对SSL性能进行了评估,发现DOANet与有和没有SCHC的角谱方法相比,都显示了很好的结果。

为了评价不同的方法,研究者还引入了一个众所周知的角偏差累积直方图曲线下的参数区域(AUC)作为性能指标,据研究者所知,之前并没有将其作为这类问题的性能指标。本文以“DOANet: a deep dilated convolutional neural network approach for search and rescue with drone-embedded sound source localization”为题于2020年11月5日发布于《EURASIP Journal on Audio, Speech, and Music Processing》杂志上。

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

研究背景

无人驾驶飞机(UAV),即众所周知的无人机,已经在广泛的应用领域找到了巨大的用途,从摄影的偶然使用到搜索和救援行动的人的生命是危险的。联合国和其他人道主义组织的报告记录了无人机在2010年和2015年分别在海地和尼泊尔的大地震等自然灾害后的救援工作中的成功部署。

无人机之所以有效是因为它们能够到达人类不容易到达的地区。它们能覆盖的面积也比一群救援人员步行所能覆盖的面积大。在搜索和救援场景中,无人机通常会配备摄像头,帮助定位有碎石和废墟的地区,那里可能有人被困。最近,有人研究在无人机中使用嵌入式麦克风阵列来三角定位应急哨声或被困在废墟下的人发出的声音。

很明显,基于声源定位(SSL)的检测系统可以在由于障碍物、光线不好甚至夜间操作而导致视场被遮挡的情况下,对视觉检测起到补充作用。然而,SSL由于无人机的旋翼和螺旋桨产生的高自我噪声的存在而变得困难。在该研究中,研究者报告了研究者为改进无人机SSL系统中使用的现有技术所做的努力。SSL算法通常利用多个麦克风对的到达时间差(TDOA)特性。

TDOA的估计可以使用多种算法,如多信号分类(MUSIC)和广义互相关(GCC)。针对噪声鲁棒SSL,提出了一种基于广义特征值分解的多信号分类(GEVD-MUSIC)算法,并结合噪声相关矩阵的自适应估计方法。在无人机的背景下,无人机包含多个传感器,可以提供关于无人机本身的额外实时数据,如它的转子速度和轨迹。

使用无人机涉及SSL的主要挑战之一是低信噪比(SNR),这是由于几个噪声源的存在,包括高自我噪声,这是噪声从无人机的所有移动部件,如旋翼和螺旋桨发出。对于精确的SSL,自我噪声必须以某种方式补偿,可能通过信号增强或噪声减少。最近的研究已经用不同的方法解决了这个问题。

提出了一种基于学习字典的自噪声估计方法。另一项研究报道了使用时频空间滤波结合波束形成和盲源分离技术。其他的工作使用了基于阶数分析的去噪算法,自适应信号处理和音高偏移方法。这些被提出的技术都涉及一些手工制作的建模和微调的形式,这使得确保在不同实际噪音条件下的鲁棒性的任务困难和费力。

噪声谱也有可能与目标声源谱重叠;试图过滤这些干扰可能会无意中扭曲目标源,从而阻碍SSL。最近,使用深度神经网络来降低自我噪声的数据驱动方法已经有了很有前途的工作,这提供了一种绕过这些问题的方法。

研究者为研究者的工作考虑的问题场景涉及定位来自无人机的语音声源的方向,这要么是悬停(静态条件),要么是飞行(飞行中的条件)。研究者在工作中使用的数据由SP杯组织者与研究者共享,这是一种名为dregon的新数据集,它包含了在低混响的大房间中由一架四翼无人机在静态和飞行条件下制作的声源的录音。

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为无人机嵌入SSL的图形表示

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为所有麦克风和旋翼的位置图

对于三维DOA估计,需要对方位和仰角进行预测。评估预测DOA的一种天真方法是计算估计角度与真值的偏差。通过计算预测方向与真实方向之间的大圆角距离,得到了较好的评价指标。它是一种测量球坐标系中两点间角偏差的方法,它既考虑了预测方向的方位角,又考虑了真实方向的仰角。图中给出了方位角、仰角和大圆角距离的可视化表示。

在飞行条件下,DREGON数据集包含两种声源的录音–白噪声和人类语音。由于SSL在语音中的动态频率含量比白噪声更具有挑战性,所以研究者在工作中重点研究了语音声源。除了实际的飞行中无人机记录外,DREGON数据集还包含了无人机是静止的,单个旋翼一次打开一个并设置为不同的速度的记录。

研究者将研究者提议的系统DOANet与SP杯2019年主办方提供的基线系统进行了比较。这个基线系统使用了角谱技术,这些技术将在下面的小节中详细描述。在研究者最初的努力中,研究者发现研究者能够改进基线系统,首先应用一种利用无人机转子速度的算法对记录进行动态去噪。这一点将在章节中讨论。

使用多个麦克风的SSL最常用的方法是使用麦克风对之间的到达时差(TDOA)。假设声源很远,到达方向(DOA)与每对麦克风的TDOA之间存在一对一的关系。因此,使用多个麦克风的SSL问题本质上是一个来自麦克风对的TDOA估计问题。

无人机飞行过程中录音音频中的声噪声由三个主要组成部分组成。这些部件是自噪声、螺旋桨气流噪声和风噪声;在噪声功率谱方面,自我噪声是最重要的,主要是由无人机的转子产生的。

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为不同转子转速的自噪声频率箱

在改进的基线方法中,研究者设计了带通滤波器,并将它们应用于目标声源记录中,以提取由方程给出的谐波。

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为修正基线法的框图

研究表明SD-WAN需要一定数量的AIOps才能实现自动化

机器学习,机器人,人工智能【天富娱乐时时彩登陆】【天富注册登陆】

研究者提出了一种端到端的一维膨胀卷积神经网络,称为DOANet.研究者的网络接收来自麦克风阵列的多通道原始音频信号,并通过预测方位角和仰角来估计声源的DOA。使用DOANet的SSL系统如图所示。

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为基于DOANet的声源定位

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为DOANet的网络体系结构

为了培训和评估研究者的系统,研究者使用了DREGON数据集的一个子集由IEEE SP Cup 2019年组织者汇编。该数据集包含多声道音频文件记录在一个大的低混响室,使用麦克风阵列嵌入在一个四视机无人机上。

一位发言者被放置在房间中央,播放来自Timit数据集的不同音频片段含有人类语言的。该数据集还包含说话人播放白噪声而不是人工语音的录音,但研究者没有将它们包括在本研究中,因为由于语音中动态频率的内容,SSL对语音的挑战比白噪声更大。录音分为两类:静态任务和飞行任务.静态任务类别中的文件被记录下来,无人机在固定位置盘旋。

第一轮数据包含300个静态音频文件,大约2到3秒长,16个飞行中音频文件,持续时间为4s。将静态文件随机分为训练和验证集,其中200份为培训文件,100份为验证文件。

最后一轮数据又增加了20个持续时间为2到4s的静态音频文件和一个持续时间为20s的飞行中音频文件,静态音频文件以与主轮数据相同的方式分割,总共产生120个数据点。飞行中的语音音频文件总共有80个时间戳,其中提供了元数据。时间戳间隔为0.25秒,每隔0.5秒记录一次。最后一轮数据的全部只用于评估训练有素的DOANET。

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为累积静态方位角偏差

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为累积静态仰角偏差

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为累积静态大圆角距离

结果表明,对于基线系统,采用延迟和(DS)技术的效果最好,对于基线系统,采用广义互相关相位变换(GCC-Phat)技术效果最好,当将方位角和仰角相结合的大圆角距离进行比较时,DOANet的所有结构都明显优于两个基线系统。

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为累积飞行方位角偏差

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为累积飞行仰角偏差

《【天富电脑版登陆地址】“DOANet”:更有效的搜索救援,更精准的声源定位!》

图为飞行中累积大圆角距离的AUCS

结果表明,在基线系统中,采用加权延迟和和(DSW)技术得到的结果最好,对于基线系统和修正基线系统,分别采用延迟和和(DS)和加权延迟和和(DSW)技术,分别给出了最佳的结果,在大圆角距离方面,使用麦克风通道2、3、6和7的DOANet比基线系统和改进的基线系统都有更好的性能。

研究结论

研究者探讨了无人机的声源定位(SSL)在检测人类语音声音的背景下为搜救行动所面临的挑战。研究者提出了一个名为DOANet的端到端一维扩张卷积神经网络来应对这一挑战。为了训练研究者的网络,研究者使用了DREGON数据集和研究者使用计算机模拟生成的合成数据集。

研究者将研究者的系统与利用传统角谱方法进行SSL的基线进行了比较。研究者还在基线系统的基础上增加了一种利用无人机的旋翼速度信息来降低无人机的自我噪声的算法,并将修改后的系统与研究者提出的DOANet进行了比较。

研究者得到的结果表明,DOANet能够在大多数考虑的指标上比基线方法有显著的改进,最差的情况下仍与修改后的基线方法在统计上相当。研究者提出的模型能够直接从原始音频输入中实现这一结果,而不需要任何事先过滤小我噪声或手工制作的技术。研究者相信,这使得研究者的方法更加灵活–只要用更多从实际户外场景中收集的真实数据来训练它,就可以改进它。

在实际的搜救场景中,无人机需要对目标声源进行 “归位”。在这种情况下,DOANet和修改后的基线方法的结合可能会有更好的表现;DOANet将提供声音的初始粗略方向,而修改后的基线方法将在无人机更接近目标时用于更精细的估计。

参考文献:Alif Bin Abdul Qayyum, K. M. Naimul Hassan, Adrita Anika, Md. Farhan Shadiq, Md Mushfiqur Rahman, Md. Tariqul Islam, Sheikh Asif Imran, Shahruk Hossain & Mohammad Ariful Haque DOANet: a deep dilated convolutional neural network approach for search and rescue with drone-embedded sound source localization  EURASIP Journal on Audio, Speech, and Music Processing 16 (2020)

【天富H5登陆测速】【天富平台登陆网站】

新研发的高负荷轴流压缩机,与上一代相比绝热效率提高了约0.4%!

高负荷轴流压缩机,绝热效率, 流体动力学

点赞