基于双注意力模块的FDA-DeepLab语义分割网络

张小国 丁立早 刘亚飞 郑子豪 王 庆

(1东南大学仪器科学与工程学院,南京 210096)(2东南大学软件学院,苏州 215123)

随着计算机视觉技术的不断发展,基于深度学习的语义分割方法相比于传统图像处理方法而言,性能得到极大的提升,并因此受到广泛的研究.Shelhamer等[1]提出了全卷积网络(FCN),利用VGG-16[2]提取基础特征实现图像语义分割,从而大幅提高了图像语义分割的精度.然而,FCN网络采用的连续池化与下采样操作使得特征图感受野逐渐变小,图像部分空间信息随之丢失,从而导致边界分割粗糙.Chen等[3]提出的DeepLab模型引入空洞卷积(atrous/dilated convolution)[4]以增大感受野,并用全连接条件随机场增强细节捕获能力.

解决池化后像素空间信息丢失问题的另一实现途径是引入编码器-解码器结构.Badrinarayanan等[5]提出了图像语义分割网络SegNet,其编码器端用卷积和池化抽取含位置和语义信息的特征图,解码器端用反卷积和反池化恢复空间、位置信息.Ronneberger等[6]提出的U-Net与SegNet类似,其将编码器中低分辨特征图通过跳跃连接直接拼接到对应解码器上采样生成的特征图,实现了更精确的分割.LinkNet将编码器的低层特征与对应尺寸的解码器中特征直接拼接,兼顾了精度和速度[7].

Chen等[8]提出的DeepLabv2模型对DeepLabv1进行了改进,提出了带孔空间金字塔池化(atrous spatial pyramid pooling,ASPP)模块.之后,Chen等[9]继续提出了DeepLabv3模型,引入了全局平均池化改进ASPP模块.基于此,Chen等[10]结合ASPP与编码-解码模块的优势,又提出了DeepLab v3+模型,实现了更好的语义分割.

DeepLabv3+融合低层特征恢复边界信息,但其输出特征图尺寸是输入原始图像的1/16,损失了较多细节信息.为此,马冬梅等[11]通过并联带状池化和引入通道注意力,有效均衡了计算效率和分割精度.刘致驿等[12]引入密集连接空洞卷积空间金字塔模块,将编码器的多层结果拼接到解码器中,提高了分割精度.左纯子等[13]引入全局注意力上采样模块,提升了小目标分割能力.邱云飞等[14]采用通道和空间注意力机制,提高了模型特征提取的准确性.这些研究较好克服了原模型因下采样丢失细节信息的问题,但模型参数量增大,实时性下降.

本文提出了一种基于双注意力模块的FDA-DeepLab(fusion of dual attention DeepLab)语义分割网络,设计了结合通道和空间注意力机制的特征融合模块,分别在4、8、16倍下采样特征图中使用该模块融合低层特征来弥补高层特征之不足,设计焦点损失函数以有效避免训练样本非均衡性问题.实验表明,本文方法在推理速度基本不变的前提下,在 PASCAL VOC2012公开数据集上的准确率优于其他现有语义分割方法.

1.1 DeepLabv3+模型简介

本文所提出的FDA-DeepLab网络是基于DeepLabv3+模型改进得到的,DeepLabv3+整体结构如图1所示.其中,编码模块包括基本特征提取的主干网络DCNN以及ASPP模块,其中ASPP模块由1个1×1卷积、1个池化以及3个不同膨胀因子(R)的空洞卷积共同组成.而解码模块包含特征图上采样模块及负责融合高低特征的FPN模块,并采用FPN融合高、低特征,最终得到语义分割结果.

图1 DeepLabv3+的整体框架

1.2 通道注意力模块

近年来,通道注意力机制[15]得到了广泛的应用,将其用于语义分割时,不同通道特征图之间存在紧密度不同的联系.有些特征通道包含更多的背景信息,而有些特征通道则包含更多的前景目标信息[16],针对不同内容选择包含不同语义属性的特征通道能够实现更好的检测和分割效果.通道注意力机制通过对特征通道建模和赋予通道权重,强化感兴趣特征,其结构如图2所示.

图2 通道注意力模块结构

在实现上,通道注意力模块首先对特征X卷积得到的尺寸为H×W×C的特征U进行压缩操作,得到1×1×C的全局特征,然后全局特征经过全连接层以及激活操作,从而最终得到具有不同通道权重的特征.这种结构让模型可以更加关注信息量最大的通道特征,同时抑制那些不重要的通道特征.

压缩操作通过在特征U上执行全局平均池化(global average pooling,GAP),得到当前特征的全局压缩特征量.假设输入特征U={u1,u2,…,uC}由一系列特征通道uk∈RH×W组成,则经过全局平均池化后得到输出特征Z∈R1×1×C,其中第k个元素值为

(1)

激活操作将得到的通道权重赋予各个通道.具体而言,通道注意力模块引入全连接层对得到的压缩特征Z进行通道依赖关系编码,学习通道间的非线性交互,并引入sigmoid函数将权值限定在(0,1)范围内.最后,将得到的权重与输入特征相乘,即为其通道赋权重,得到通道注意力的输出UCA.其计算关系可以表示为

UCA=f(WRZ)U

(2)

式中,f(·)为sigmoid函数;WR为全连接层参数.

1.3 空间注意力模块

空间注意力机制通过对特征图中不同位置的元素重新赋予权重,以挖掘特征图空间信息,更好地聚焦待检测目标.空间注意力模块结构如图3所示.

图3 空间注意力模块结构

空间注意力模块首先对卷积得到的特征图沿着通道方向进行压缩操作,去除特征对通道的依赖性,并对特征进行激活操作学习不同像素点间的关系,得到不同像素点的权重,最后乘以原特征图得到最终特征.该机制可使模型更容易聚焦信息量最大区域的特征,并抑制不重要区域的特征.假设输入特征U={u1,1,u1,2,…,ui,j,…,uH,W},其中,i∈{1,2,…,H},j∈{1,2,…,W},每个ui,j的维度为1×1×C.首先通过卷积操作将特征图U∈RC×H×W的C个通道压缩为1个,从而得到特征s∈RH×W,则s中每个位置上的值si,j是ui,j的线性组合表示.之后引入sigmoid函数将值限定在(0,1)范围之间,表征该位置在空间范围内所占权重大小.最后,与原输入特征图相乘,得到空间注意力的输出USA.USA计算公式如下:

USA={f(s1,1)u1,1,f(s1,2)u1,2,…,

f(si,j)ui,j,…,f(sH,W)uH,W}

(3)

1.4 融合通道与空间的双注意力模块

通道注意力对所有通道重新赋予权重表征各通道之间的关联,以增强特征通道下特定语义的响应能力.空间注意力则对特征图中不同位置元素间的关系进行建模,以增强各自的特征表达.

目前常用的融合方式是在同一张特征图上,分别进行2种注意力机制操作并融合结果[17],主要区别在于不同的特征融合方式.如上文所述,分辨率高的低级特征图适合采取空间注意力操作,提取输入图像的空间位置信息,从中定位重要部位;分辨率低的高级特征图适合采取通道注意力操作,关注更相关的特征通道,忽略其他干扰.因此,本文综合2种注意力机制对不同分辨率特征图提取特征的优点,有效融合低级空间细节和高级语义线索,使得特征包含更加丰富的信息.

(4)

FS={f(s1,1),f(s1,2),…,f(si,j),…,f(sH,W)}

(5)

(6)

(7)

式中,c表示1×1卷积操作.

双注意力模块结构如图4所示.由图可知,高分辨率特征图和低分辨率特征图作为双注意力模块的输入,低级特征图在上采样完成后经过通道注意力模块的处理后,与高级特征图经过空间注意力模块处理后的特征图进行逐元素相乘操作,最后经过相加以及1×1卷积,得到最终融合的输出特征图.

图4 双注意力模块结构

1.5 焦点损失函数

交叉熵损失(cross-entropy loss)常被用于神经网络中作为损失函数,用以衡量预测值与真实值之间的差异,而损失函数的选择对于模型的正确学习至关重要.DeepLabv3+原始网络模型中使用的交叉熵损失函数的表达式为

LCE(pt)=-logpt

(8)

式中,LCE(·)为交叉熵损失函数;pt为预测结果对应标签的概率.在实际训练中,若某类目标的样本数量远多于其他类,则为不平衡数据集,它将会导致训练效率降低和模型性能退化.

由于交叉熵损失函数不能很好地平衡较少样本的学习,因此引入焦点损失函数来解决样本不平衡问题.焦点损失函数通过调整内部权重来解决类别不平衡问题,该函数侧重于使用困难样本稀疏的数据来训练,可确保即使某简单样本数量很大时,仍不会对总损失贡献过大.

焦点损失函数是在交叉熵损失函数基础上添加权重调节因子(1-pt)γ,以抵消样本类别不平衡和样本分类难度不平衡的影响,从而提升模型精确度,其表达式为

LFL(pt)=-(1-pt)γlogpt

(9)

也可以添加一个类别权重α,则式(9)可改写为

LFL(pt)=-αt(1-pt)γlogpt

(10)

式中,α为类别间(0-1二分类)的权重参数,可以通过设定其值来控制正负样本对总损失的贡献权重;γ为聚焦参数.当对某类别预测准确时,即pt接近于1时,(1-pt)γ接近于0;当对某类别预测不准确时,即pt接近于0时,(1-pt)γ的值接近于1.本实验中,设置γ=2,α=0.25.

1.6 FDA-DeepLab网络结构

本文在DeepLabv3+的基础上,将主干特征提取网络DCNN中4、8、16倍下采样特征图分别与双注意力模块相连接,并与后续高级特征图进行融合.FDA-DeepLab的整体结构如图5所示.

本文实验均在GPU上进行,具体软硬件环境配置如表1所示.

表1 实验环境配置

2.1 数据集

本文在公开数据集PASCAL VOC 2012数据集[18]上进行算法实验验证.该数据集含有21个类别,包括20个常见的前景目标类别和1个背景类别,共有1 464张训练图像、1 449张验证图像以及1 456张测试图像.

Hairlharan等[19]对原始PASCAL VOC 2012数据集进行扩充,得到了10 582张训练图像.本文实验采用扩充的10 582张图像作为训练集,在1 449张验证集上进行性能评估.

ImageNet数据集[20]是一个计算机视觉数据集,该数据集含有14 197 122张图片和21 841个Synset索引.本文采用在ImageNet数据集上预训练过的模型作为初始模型.

2.2 训练策略

本文采用在ImageNet数据集上预先训练好的ResNet-50预训练模型对FDA-DeepLab骨干模型进行初始化,以获取较快的收敛速度和较好的分割效果.

训练参数设置如下:批处理大小为 10;迭代步数40 000;基础特征提取网络总的下采样倍数为16;初始学习率0.007;图像训练块大小为513×513像素.

采用poly学习率策略[8],即当前学习率等于初始学习率乘以衰减系数,学习率呈指数形式变化,具体计算公式如下:

(11)

式中,lr为当前学习率;lini_r为初始学习率;nc为当前迭代次数;nmax为总迭代次数;p取值为0.9.

由于Chen等[10]没有给出以ResNet-50为基础特征提取网络的DeepLabv3+算法在PASCAL VOC 2012验证集上的精度,本文采用与FDA-DeepLab相同的训练策略对其进行训练,以得到基准结果进行对比.

2.3 消融实验

为了验证双注意力模块、焦点损失函数以及特征融合模块对模型性能的影响,本文设计了消融实验来验证.所有实验都在PASCAL VOC 2012验证集上进行,以语义分割中常用的标准度量均交并比(MIoU)作为评估指标.

2.3.1 双注意力模块

本实验对比空间注意力模块、通道注意力模块以及双注意力模块对DeepLabv3+模型的影响,插入位置为原始模型的解码模块输入处,即主干网络的4倍下采样特征图输出.实验结果如表2所示.

表2 注意力机制对模型性能的影响

从表2可看出,空间注意力模块和通道注意力模块均可提升网络整体的分割性能.加入空间注意力和通道注意力模块之后,MIoU值提高了0.5%~1.0%.其中,双注意力模块结合了两者的优势,其表现效果也最好,MIoU达到75.6%,因此本文最终选取双注意力模块.

2.3.2 焦点损失函数

本实验将原始网络的损失函数从原始的交叉熵损失函数替换成焦点损失函数,并对比结合双注意力模块前后网络整体的效果.实验结果如表3所示.由表可发现,焦点损失函数的引入使得MIoU在原始交叉熵损失的基础上提高了0.6%.结合双注意力模块和焦点损失函数的网络,其MIoU相比原始网络提升了1.1%.

表3 焦点损失函数改进对性能的影响

2.3.3 特征融合模块

考虑到编码区不同尺度上的特征图都对后续的分割任务有不同程度的贡献,本实验研究双注意力模块结合主干网络不同下采样率的特征图下网络的性能提升效果.

对比实验在结合双注意力模块和焦点损失函数的基础上,依次将不同下采样率的特征进行特征融合,以验证不同组合的效果.当主干网络中4倍和8倍下采样特征图进行组合时,MIoU值为75.4%;当4倍和16倍进行组合时,MIoU值为75.5%;当4、8以及16倍下采样特征图输入双注意力模块时,网络整体的性能达到最佳,MIoU值达到75.8%,相较于原始DeepLabv3+的74.6%提高了1.2%.因此本文最终采用该改进网络FDA-DeepLab.

DeepLabv3+与FDA-DeepLab性能对比结果如表4所示,其中基础特征提取网络总的下采样倍数取为16,预训练数据均为ImageNet数据集.在多尺度输入预测时,FDA-DeepLab模型MIoU达到了77.7%,相较原始模型提高了1.9%.

表4 DeepLabv3+改进前后性能对比

当模型的下采样倍数为16,以单尺度输入进行预测时,FDA-DeepLab与DeepLabv3+在PASCAL VOC 2012验证集上的21个类别的测试精度如表5所示.从表中可看出,相比于DeepLabv3+语义分割模型在VOC 2012验证集上的检测结果,基于双注意力模块的FDA-DeepLab在其中11个类别上的检测精度都有所提升,MIoU值从74.6%提高到75.8%,提升了1.2%.

表5 FDA-DeepLab与DeepLabv3+不同类别检测性能对比

为了进一步验证所提出的FDA-DeepLab的有效性,本节在PASCAL VOC 2012数据集上与其他先进的语义分割模型进行对比,结果如表6所示.

表6 不同模型在PASCAL VOC 2012验证集上的性能对比

从表6可以看出,FDA-DeepLab在下采样倍数为16时,采用多尺度输入进行预测的情况下,MIoU达到了77.7%,优于其他以ResNet-50为基础特征提取网络的语义分割模型,如PSPNet、GCN,证明了本文提出的FDA-DeepLab的有效性.

FDA-DeepLab和DeepLabv3+在PASCAL VOC 2012验证集上的部分可视化对比结果如图6所示.可以看出,FDA-DeepLab分割性能整体上优于DeepLabv3+,其分割边界更精细光滑,能更好地捕捉小尺度细节语义特征,较好地避免了DeepLabv3+分割物体存在的断裂和空洞问题.

1) 针对DeepLabv3+分割边界不够精细、解码模块融合的低层特征可带来额外噪声的问题,本文提出了一种融合高低特征图的双注意力模块,融合低层特征来弥补高层特征之不足.针对训练样本非均衡性问题,引入样本难度权重调节因子和类别权重改进损失函数,从而在整体上提高了语义分割精度.

2) 消融实验表明,引入的双注意力模块以及焦点损失函数对原模型的语义分割性能具有一定程度的提升.

3) 对比实验表明,本文算法在PASCAL VOC 2012验证集上MIoU达到了75.8%,较原始DeepLabv3+模型提高了1.2%,多比例尺输入时增加1.9%.

猜你喜欢 集上语义注意力 真实场景水下语义分割方法及数据集北京航空航天大学学报(2022年8期)2022-08-31让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09GCD封闭集上的幂矩阵行列式间的整除性四川大学学报(自然科学版)(2021年6期)2021-12-27基于互信息的多级特征选择算法计算机应用(2020年12期)2020-12-31如何培养一年级学生的注意力甘肃教育(2020年22期)2020-04-13语言与语义开放教育研究(2020年2期)2020-03-31A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21“吃+NP”的语义生成机制研究长江学术(2016年4期)2016-03-11师如明灯,清凉温润文苑(2015年9期)2015-09-10汉语依凭介词的语义范畴长江学术(2015年1期)2015-02-27

推荐访问:语义 分割 注意力