采用混合域注意力机制的无人机识别方法

薛珊,卫立炜,顾宸瑜,吕琼莹

(1.长春理工大学机电工程学院,130022,长春; 2.长春理工大学重庆研究院,401135,重庆;3.西安交通大学信息与通信工程学院,710049,西安)

近年来,民用无人机黑飞的数量大大增加,给人们带来了极大威胁,如何应对无人机威胁并对其进行反制就成为了亟待解决的问题。在此背景下,对无人机进行反制的反无人机系统成为了研究热点。反无人机系统的关键之一,也是它的首要解决问题是对无人机进行探测识别。目前对无人机进行探测识别有多种方法,包括图像识别、无线电识别等,它们有各自的优缺点和适用范围,先进的趋势是采用多种识别方法结合的方式[1-4]。在此情况下,经济便捷的声学识别方法得到了广泛关注,它不会对其他方法形成干扰,可以成为一种很好的辅助手段,如何运用声音识别无人机成为了研究的热点。

针对无人机声音识别问题,学者们已经对其进行了一系列的研究,目前大多采用卷积神经网络的方法识别。Seo等使用具有声学短时傅里叶变换特征的卷积神经网络来对无人机进行探测[5];Casabianca等提取无人机的梅尔谱图特征,运用卷积神经网络对无人机进行识别[6]。研究过程中使用的无人机以及特征等各不相同,并没有统一的标准,所以目前并没有统一且成熟的无人机公共声音数据集。现实中无人机音频样本数量较少,在运用大模型对其进行识别时,容易引起过拟合,导致识别准确率不高;除此之外,不同种类间的无人机声音音频特征相似,不易区别,这也影响了模型的识别准确率。如何运用深度学习中的先进方法提高对无人机声音的识别准确率,成为了人们研究的难点。

本文针对大模型识别无人机时准确率不高的问题,采用分组卷积[7]的思想来减少网络参数,降低模型复杂度,设计小型网络通道混洗的多尺度分组卷积网络(multi-scale group convolution networks with channel shuffle,MSSGNet)来提高模型的识别准确率;针对特征相似不易区分而导致的准确率不高的问题,本文选择在网络中加入注意力,为此设计通道空间混合域注意力机制模块 (efficient channel and spatial attention,ECSA),让模型重点关注有用信号而忽略无关噪声信号,增强信号特征区域的表征,使得模型的识别准确率获得进一步提高。

1.1 无人机声音数据集建立

采集城市公园、广场和大型游乐场等公共环境中的民用无人机声音数据,采样频率为44.1 kHz,其中包含着较高信噪比的背景噪声。实验采用的无人机包括DJI 晓spark、DJI Phantom 4、DJI Mavicmini、DJI Mavic Air、DJI Mavic Air 2、DJI Mavic 2和DJI Mavic Pro等7类无人机,作为已知无人机;将大疆悟1等一些小众无人机当作未知无人机,作为第8类,记作unknown类;将发动机、空调外机、钻孔、广场环境声、交通环境声、公园环境声等非无人机声音作为第9类,记作non-drone类。对获得的声音信号进行滤波、预加重、分帧和加窗等预处理,将长音频片段分割成1 s的短片段。建立的无人机声音数据集的详细描述如表1所示,在数据集中随机选取9类音频各一帧信号的声谱图如图1所示。

表1 自制无人机数据集的详细描述

(a)Mavic 2 (b)Mavic Air (c)Mavic Air2

1.2 特征提取

音频数据在输入神经网络之前,需要提取合适的特征参数来表征信号。常用的音频特征包括对数梅尔谱图(log Mel-spectrogram,log-Mel)[8-9]、MFCC[10-11]等。本文采用log-Mel特征及其动态差分特征来表征无人机音频信号。

图2展示了特征生成的过程。采用25 ms窗口长度的短时傅里叶变换(STFT)和34个Mel滤波器来提取log-Mel特征及其动态差分特征,其中DJI Mavic 2无人机的特征表示如图3所示。

图2 特征提取流程示意图Fig.2 Schematic diagram of the feature extraction process

(a)log-Mel (b)Delta (c)Delta-Delta图3 DJI Mavic 2的log-Mel及差分特征谱图Fig.3 Log-Mel and differential feature spectrum of DJI Mavic 2

2.1 MSSGNet网络设计

由于民用无人机声音数据集样本数量较少,当采用的分类网络较大时,其参数量过多,会产生过拟合现象,导致模型精度不高。所以,设计一种小型网络模型来减轻这种过拟合现象就显得很重要。基于此,基于分组卷积和通道混洗[12]的思想,结合残差结构[13],设计了小型网络MSSGNet。

首先设计通道混洗的多尺度分组卷积模块(multi-scale group convolution module with channel shuffle,MSSG),步长(stride)为1时的结构示意图如图4所示,步长为2时结构相同,只是输出特征图的宽和高相应减半。采用分组卷积来减少模型参数,借鉴多尺度特征提取思想,分组后并行经过核大小为3×3的深度卷积[14]以及1×1的卷积,再对两者结果进行拼接,其中选用小核的目的是为了在获得好的性能的同时能具有更少的参数;采用通道混洗来保证分组卷积(包括深度卷积)过程中不同组之间信息的交互;之后运用1×1的卷积对通道进行降维;结果通过捷径连接与输入特征图逐元素相加融合输出。其中卷积层、批归一化层(batch normalization,BN)以及整流线性单元(rectified linear unit,ReLU)同时使用。MSSG模块的结构示意图如图4所示,图中C、H、W为特征图的通道数、高度、宽度,⨁表示矩阵相加。

图4 MSSG模块的结构示意图Fig.4 Schematic diagram of structure of the MSSG block

为了充分提取特征,MSSGNet网络首先经过核大小为7×7、步长为1的卷积核,并经过核大小为2×2、步长为2的最大池化操作进行降维,将它们记作CONV1;之后经过顺序堆叠的若干MSSG-X模块,其中MSSG-X模块代表X个MSSG模块的顺序堆叠,其结构如图5所示;最后以全局平均池化层(GAP)和具有Softmax的全连接层(FC)结束。MSSGNet网络的结构图如图6表示,图中每个特征图下方的标注均表示特征图的尺寸,即通道数C×高度H×宽度W。

图5 MSSG-X模块的结构示意图Fig.5 Schematic diagram of structure of the MSSG-X

图6 MSSGNet网络结构示意图Fig.6 Structure diagram of the MSSGNet

2.2 通道空间混合域注意力机制模块(ECSA)设计

近年来,深度学习中的注意力机制在自然语言处理、图像识别和语音识别等各种任务中都获得了广泛应用,它可以增强表现力,对重要信息进行关注,弱化其他无关信息[15-19]。为提高模型精度,选择加入注意力机制来增加模型对特征的提取能力。

2.2.1 通道注意力模块设计

为了让模型更多地关注那些能够提取无人机声音信号特征的通道,忽略提取背景噪声特征的通道,设计通道注意力模块(channel attention module,CAM)。

首先,对输入特征图X在空间维度进行压缩,其中X∈C×H×W,为了丰富特征,借鉴于CBAM[20],除了运用平均池化来聚合输入特征图X的空间信息外,还运用最大池化压缩空间,把两者聚合后获取的特征描述符先逐元素相加融合进行编码,再把编码后的结果通过多层感知器来学习一维通道注意力矩阵,其中加入了值为16的衰减率来减少参数;之后通过h-sigmoid[21]函数进行归一化;最后与输入特征图X逐元素相乘获取加权后的输出特征图X′∈C×H×W,其结构示意图如图7所示,图中FC表示全连接层,⊗表示矩阵乘法。对特征图X提取通道注意力矩阵A(X)可表示为

A(X)=f(M(Avgpool(X)+Maxpool(X)))

(1)

X′=XA(X)

(2)

式中:f(·)为h-sigmoid激活函数;Avgpool(·)、Maxpool(·)分别为全局平均池化函数、最大池化函数;M(·)表示经过中间处理模块处理后的矩阵。

图7 通道注意力模块CAM模块结构示意图Fig.7 Schematic diagram of structure of the CAM

2.2.2 空间注意力模块设计

通道注意力忽略了空间信息,通过空间注意力来弥补。输入网络的声音信号特征谱图,其水平方向是每帧信号特征所在的维度,代表帧信号的特征,而垂直方向是时间所在维度,表示时序信号在时间上帧与帧信号之间的联系,它们在各自维度上都占据着不同的比重。为了突出两个维度空间的信息,设计了两条支路来分别对特征和时间两个维度提取注意力向量,让模型更多地关注信号的重要特征及时间区域,称其为空间注意力模块 (spatial attention module,SAM)。

首先采用1×1卷积在通道维度对输入特征图X∈C×H×W进行压缩;之后分出两条支路,分别运用一维平均池化聚合特征图的水平和垂直方向上的信息,再通过7×1、1×7卷积分别获取一维垂直及水平注意力向量,并运用sigmoid函数进行归一化,其中选用7×1核大小的原因在于:在对不同卷积核大小的比较中,发现采用更大的核会产生更好的精度,这也意味着需要一个大的感兴趣区域来决定空间上重要的区域;最后把获得的两个一维向量与输入特征图逐元素相乘获取加权后的输出特征图Y∈C×H×W。其结构示意图如图8所示,其中θ、φ和λ分别表示大小为3×3、7×1和1×7的卷积核;σ表示sigmoid激活函数,表达式为

AH(X)=σ(Avgpool(WθX)Wφ)

(3)

AW(X)=σ(Avgpool(WθX)Wλ)

(4)

Y=XAW(X)AH(X)

(5)

式中:σ(·)为sigmoid激活函数;Wθ、Wφ、Wλ为不同卷积核权重参数;AH(X)为对特征图X提取一维垂直注意力向量;AW(X)为对特征图X提取一维水平注意力向量。

图8 空间注意力模块SAM模块的结构示意图Fig.8 Schematic diagram of structure of the SAM

2.2.3 通道空间混合域注意力机制模块设计

类似CBAM,通道空间顺序连接:输入特征图X∈C×H×W,先经过CAM模块获取一维通道注意力图FC∈C×1×1,与X逐元素相乘得到中间特征图X′∈C×H×W;之后通过SAM模块获取一维垂直注意力图FH∈1×H×1和一维水平注意力图FW∈1×1×W,两者一同与X′逐元素相乘,获得最终输出特征图Y∈C×H×W,称为通道空间混合域注意力机制模块(efficient channel and spatial attention,ECSA)。其结构示意图如图9所示,其值可表示为

X′=FC(X)⊗X

(6)

Y=X′⊗FH(X′)⊗FW(X′)

(7)

式中:⊗表示逐元素相乘;FC、FH、FW表示对特征图提取相应注意力矩阵。

图9 ECSA模块结构示意图Fig.9 Schematic diagram of structure of the ECSA

2.3 通道空间混合域注意力机制的多尺度分组卷积网络设计

为了进一步提高网络模型对无人机的识别准确率,在MSSGNet网络的MSSG模块中插入了混合域注意力机制模块ECSA模块,位置处于MSSG模块中的通道降维后,合称为ECSAM模块,其结构示意图如图10所示。同样,将X个ECSAM模块的顺序堆叠表示成ECSAM_X模块,其结构图如图11所示。其余结构保持不变,将MSSGNet网络中的MSSG模块替换为ECSAM模块后的网络称为通道空间混合域注意力机制的多尺度分组卷积网络(Multiscale group convolution network with attention mechanism in mixed domain of channel space,ECSANet),其网络结构示意图如图12所示。

图10 ECSAM模块的结构示意图Fig.10 Schematic diagram of structure of the ECSAM block

图11 ECSAM_X模块的结构示意图Fig.11 Schematic diagram of structure of the ECSAM_X

图12 ECSANet网络结构示意图Fig.12 Schematic diagram of structure of the ECSANet

所有实验在Python 3.7.6环境、Windows10平台上完成。运行设备CPU型号为i7-9750H,显卡为GTX1660 Ti。在GPU环境下完成对网络模型的学习训练。

3.1 自制无人机数据集上的对比实验

该部分实验在自制无人机声音数据集上进行,其中训练集和测试集的比例为3∶1。网络训练时采用带动量的SGD优化器,动量的值为0.9,初始学习率为0.01,每经过30轮学习率下降为原来的0.1倍,共训练90轮;采用交叉熵损失函数;批次大小设置为128。

3.1.1 MSSGNet网络与其他基准网络的对比实验

该实验是为了对所设计的MSSGNet网络进行评估。选择在自制无人机声音数据集上与其他基准网络之间进行比较,其中基准网络有ResNet18、ResNet34、ResNeXt18[22]和MobileNetV2[23]。运用准确率作为评价指标。其实验结果如表2和图13所示。网络的参数量可以体现模型的空间复杂度,网络参数量越大,训练网络时所需的数据量就越大。而当数据集样本数量太小时,模型的训练更容易引起过拟合问题。

表2 MSSGNet与其他基准网络模型的实验结果比较

(a)准确率对比曲线

从表2可以看出,MSSGNet网络的参数量最少,且识别准确率最高,可以达到95.1%。当运用其对无人机声音数据集进行识别时,可以缓解过拟合现象。由图13可知,与其他基准网络相比,MSSGNet网络性能最好,MSSGNet网络可以很好地应对无人机小样本识别任务,且性能较好。

3.1.2 通道空间注意力机制模块ECSA模块的消融实验

该实验是混合注意力ECSA模块的消融实验,选择ResNet34作为基准网络,实验时分别加入通道注意力CAM模块、空间注意力SAM模块以及混合注意力ECSA模块,研究它们对模型识别准确率的影响。将提取的特征参数分别传入网络进行训练,运用准确率作为模型的评价指标,最终实验结果如表3和图14所示。

表3 ResNet34加入3种注意力模块后网络模型的相关实验结果对比表

(a)准确率对比曲线

从表3和图14可以看出,基准网络ResNet34在加入3种注意力模块后,其识别准确率均获得了提高,在其中加入混合注意力ECSA模块后网络模型的识别准确率最高,相比于ResNet34提高了4.9%,相比于单纯的通道、空间注意力分别提高了2.5%、3.2%,并且网络模型增加的参数量基本上可以忽略不计。实验结果证明了混合注意力ECSA模块相比于单纯的通道和空间注意力,可以使模型的识别准确率变得更高;并且也表明了混合域注意力ECSA模块是轻量的,在插入神经网络模型后带来的参数可以忽略不计。实验结果证明了设计的混合注意力ECSA模块的有效性。

3.1.3 ECSA模块与其他注意力机制模块的对比实验

该实验是对混合域注意力模块ECSA的可行性验证以及与其他诸如SE (squeeze & excitation block)[24]、CBAM (convolutional block attention module)等常用注意力机制模块的优越性对比。选择ResNeXt18、ResNet18、ResNet34和ResNet50等网络作为基准网络,将提取的特征参数分别传入各种网络进行训练。运用准确率作为模型的评价指标,最终各个模型的准确率对比曲线如图15所示。

(a)ResNeXt18 (b)ResNet18

从图15中可以看出,相比于各种基准网络,加入注意力后,基准网络模型的识别准确率均获得了提高,且加入设计的混合注意力ECSA模块后的基准网络模型识别准确率最高。实验结果证明了设计的混合注意力模块ECSA模块的可行性和优越性,表明了ECSA模块可以插入各种神经网络中来提高模型的识别准确率。研究表明,针对无人机声音识别问题,设计的混合域注意力ECSA模块可以使得网络模型更准地识别无人机。

3.1.4 ECSANet网络的对比实验

该实验是对ECSANet网络进行的可行性验证实验。选择MSSGNet网络为基准网络,把特征参数分别传入MSSGNet、ECSANet网络,最终模型的准确率对比曲线如图16所示,两者的混淆矩阵如图17所示。

图16 MSSGNet网络与ECSANet网络模型的准确率对比曲线Fig.16 Accuracy comparison curve between MSSGNet and ECSANet models

(a)MSSGNet网络

从图16可以看出,与MSSGNet网络相比,ECSANet网络识别准确率获得了提高,由95.1%提高到了95.9%。从图17可以看出,相比于MSSGNet网络,ECSANet网络对于DJI Mavic mini和DJI晓spark这两类无人机的预测能力得到了增强,说明MSSGNet网络加入混合域注意力机制模块ECSA模块后,其对于信号的特征提取能力得到增强,从而使得网络模型对于复杂类别间的区分度得到增强,进而使得网络模型的识别准确率得到提高。实验证明了设计的网络ECSANet网络的有效性,它可以更准确地对无人机进行识别。

3.2 公共环境声音数据集Urbansound8K上的验证实验

公共环境声音数据集Urbansound8K[25]是由8 732个带标签的声音片段组成的数据集,每个声音片段具有最大4 s的持续时间。8 732段录音来自10个声音类别,即汽车喇叭、狗吠、发动机空转、风钻、空调、街头音乐、儿童玩耍、钻探、枪声和警笛。数据集由Urbansound8K的一部分构成,分别包括空调、儿童游戏、钻孔、发动机怠速以及手提钻共5类,每类包含730个片段。这部分实验主要是对MSSGNet网络以及ECSANet网络模型进行可行性验证。

同样,采用log-Mel及其动态差分特征作为表征音频信号的特征参数。实验时训练集和验证集的比例为3∶1,网络训练时采用带动量的SGD优化器,动量取值0.9,初始学习率为0.01,每经过30个epoch学习率下降为原来的0.1倍,共训练90个epoch;损失函数采用的是交叉熵损失函数;每次传入网络数据的批次大小设置为128。运用准确率作为模型的评价指标。

3.2.1 MSSGNet网络的验证实验

该实验是为了为验证所设计网络MSSGNet的可行性与优越性。采用ResNet18、ResNeXt18和MobileNetV2作为基准网络,提取特征参数输入几种网络,观察实验结果,实验结果如图18所示。相比于其他基准网络模型,MSSGNet网络的识别准确率最高。实验结果证明了设计的MSSGNet网络的可行性和有效性,且它具有一定的优越性。

(a)准确率对比曲线

3.2.2 ECSANet网络的验证实验

该实验是对ECSANet网络进行的可行性验证实验。将MSSGNet网络作为基准网络,把特征参数分别传入MSSGNet、ECSANet网络,最终模型的准确率对比如表4所示。可知相比于MSSGNet网络,ECSANet网络识别准确率有了进一步提高。实验证明了ECSANet网络的可行性和有效性。

表4 MSSGNet、ECSANet网络的实验结果对比

(1)为了提高反无人机系统声音识别小样本无人机的准确率,提出了一种融合通道空间混合域注意力的ECSANet网络。基于分组卷积、通道混洗和残差结构设计了MSSGNet网络,设计了通道空间混合域注意力模块ECSA模块,将ECSA模块插入MSSGNet网络构成基于通道空间混合域注意力的改进网络ECSANet网络,它参数量少,对无人机声音信号特征具有很好的提取能力。

(2)在自制无人机数据集和环境声音数据集Urbansound8K上进行实验验证。实验结果表明,与其他基准网络相比,MSSGNet网络参数更少,识别准确率更高,在无人机等小样本识别任务上具有不错的性能;ECSA模块可以插入多种网络,可以在不增加太多参数的情况下令网络模型的识别准确率获得提升,在无人机等声音分类任务上具有很好的效果;与MSSGNet网络相比,ECSANet网络的识别准确率更高,表明了设计的网络在识别小样本无人机方面的优越性和可行性。

猜你喜欢 示意图准确率卷积 基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11乳腺超声检查诊断乳腺肿瘤的特异度及准确率分析健康之家(2021年19期)2021-05-23不同序列磁共振成像诊断脊柱损伤的临床准确率比较探讨医学食疗与健康(2021年27期)2021-05-132015—2017 年宁夏各天气预报参考产品质量检验分析农业科技与信息(2021年2期)2021-03-27颈椎病患者使用X线平片和CT影像诊断的临床准确率比照观察健康体检与管理(2021年10期)2021-01-03黔西南州旅游示意图当代贵州(2019年41期)2019-12-13从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20贫困户建档立卡工作示意图及参考文本中国扶贫(2014年8期)2014-06-27

推荐访问:无人机 注意力 识别