改进U-Net网络及在遥感影像道路提取中的应用

孔嘉嫄,张和生

太原理工大学矿业工程学院,太原 030024

近年来,中国遥感卫星事业高速发展,对于遥感影像的获取日益简便快捷。由于高分辨率图像的广泛覆盖和高精度,它已成为地理信息数据的重要来源。从这些图像中提取的道路网络信息具有广泛的适用性,包括在导航、制图,城市规划和地理条件监视中的应用。道路是重要的人工建筑物、现代交通基础设施的主体和地理信息系统中的基本数据。因此,及时更新道路信息将对依赖于这些系统的所有事物产生影响:如制图、路线分析和紧急响应。利用遥感影像,大范围自动提取道路数据吸引了全世界的广泛关注。众多学者经过多年的研究,提出并改进了多种道路提取方法。张永宏等全面总结分析了现有的道路提取方法,将其分为三类[1]:①基于像元的道路提取方法:如罗庆洲等提出了用光谱特征与形状特征相结合的方法提取道路[2],林祥国等使用角度纹理特征和灰度最小二乘匹配进行最佳量算提取阴影下带状道路[3]。该类方法主要利用道路本身波谱特征的差异进行道路提取,对于背景简单清晰、目标较少的遥感图像提取效果较好,但对于背景信息较为复杂的遥感图像道路提取效果不佳,需要大量后续处理。②面向对象的道路提取方法。如陈立福等提出的将马尔可夫随机场分割与数学形态学处理融合的方法[4],曹云刚等提出的融合像元多尺度对象级特征的高分辨率遥感影像道路中心线提取方法[5]。该类方法主要将图像作为整体,将其分割为小像元,再进行道路提取。适用于信息量丰富、特征分明的遥感影像,而对于相似地物容易混分产生粘连现象。③基于深度学习的道路提取方法:如Cheng等通过将两个卷积网络级联到一个框架中,提出了级联的端到端卷积神经网络(CasNet)的方法[6]。Liu等提出的深度解析网络(DPN)将卷积神经网络(CNN)与马尔可夫随机场(MRF)相结合对道路进行提取[7]。这类方法具有高效的学习能力和特征表达能力,在区别道路与其他非道路地物方面有突出优势,但仍存在道路断点,提取效果有待进一步提升。

随着计算机技术不断发展进步,不少学者对深度学习方法做出了许多改进,以此提高遥感影像道路的识别精度[8-10]。其中U-Net网络[11]的跨越连接结构实现了多尺度图像信息的融合,在保留了高级的语义信息的同时顾及了低级的细节信息,因其改造性强且训练速度快,目前在图像分割领域最为常用。袁伟等提出一种新的形态损失函数有效提高道路分割精度[12]。金飞等用双U-Net网络联合训练和形态学后处理方式取得不错效果[13]。王卓等通过在U-Net网络中利用Batch Normalization、ELU 与 Dropout 较好地解决了过拟合问题[14]。

针对以上分析,研究采用U-Net网络模型作为基础结构,提出了一种基于改进U-Net的多维度监督特征优化的网络模型MDAU-Net:通过对U-Net进行加深结构处理,采用7层卷积和下采样模块进行特征提取;
同时,为了优化道路目标的浅层细节特征和深层的语义特征,设计了模块MD-MECA并将其添加至编码部分到解码部分的特征传递步骤中;
并引入Batch Normalization[15]和DropBlock[16]解决网络训练过程中出现的过拟合问题。在遥感影像上进行道路提取试验,有效减少了提取中的断裂问题,较好地提取细小道路,实现遥感影像道路完整提取。

2.1 U-Net结构

U-Net结构于2015年5月由Ronneberger等[11]提出,最初广泛应用于医学图像分割领域。作为一种非常经典的全卷积网络模型,目前在遥感影像分割领域中被广泛采用,其网络结构如图1所示。

U-Net分为两部分,左边为特征提取部分也称下采样部分,右边为上采样部分。特征提取部分通过卷积以及池化的计算方式提取图像的深层语义特征,每次过程包括:将图像经过两次卷积后变为通道数增加64的矩阵,接着进行最大池化操作,图像长宽缩小至原来的一半。依照相同的过程,经过4次下采样之后,图像变为 32×

图1 U-Net网络结构Fig.1 U-Net network architecture

32×512 的矩阵,再经过两次 3×3 的卷积操作得到最终的特征图。而对于上采样部分,从网络底层信息开始计算,每经过一次 2×2 的反卷积后与同一层的下采样特征图进行拼接,和特征提取部分对应的通道数相同尺度融合,再经过两次 3×3 的卷积操作完成1次上采样。通过不断结合特征提取而得到的特征图,来进行信息补充,从而优化分割结果。

2.2 MECA与MD-MECA

受最近提出的CAR-UNet(channel attention residual U-Net)[17]的启发,研究改进了CAR-UNet中的MECA(modified efficient channel attention)模块,MECA模块结构如图2所示,该模块在保持性能的同时大大降低了图像分类、对象检测和实例分割中的网络复杂性。本文将优化后的模块命名为多维度监督机制MD-MECA(multi dimension modified efficient channel attention),通过将MD-MECA添加到U-Net架构的编码传递特征到解码模块,相比于原始的U-Net,结构在特征图传递的过程中,进行了特征图优化,将编码部分的特征图进行不同方式的信息监督,然后传递到解码部分进行信息补充。

图2 MECA模块结构Fig.2 MECA module structure

通道注意力机制CA(channel attention mechanism)最初被用作分类中的特征压缩激励网络块 (squeeze-and-excitation networks)[18],它通过对通道间的依赖关系进行建模,可以自适应的调整各通道的特征响应值。最近研究表明,通道注意力在提高深度卷积神经网络的性能方面有很大的潜力。近来,Guo等人提出了一种改进高效通道注意力(MECA)模块应用于视网膜血管分割,取得较好效果[17],MECA模块利用卷积来避免在SE网络块中的降维操作,从而在保持优越性能的同时大大降低了模型的复杂度。MECA模块是可嵌入的通道监督模块,通过使用不同的全局池化计算来提取全局特征:平均池化计算可以提取空间信息,同时最大值池化可以获取独特的对象特征,从而可以吸引更多精细的通道注意。因此,MECA模块通过组合两者提取的全局特征来获得更精细的通道监督权重,并且以C通道为基础进行通道注意监控,获取不同通道之间的权重参数。

MECA模块中特征图具有不同维度H、W和C,分别代表输入特征的高(height)、宽(width)和通道(channels)数量,因而可以通过多角度全方面进行监督来强化MECA模块,使得特征图能代表更加精细的道路信息。基于特征图的维度特点,本文设计的一种多维度监督机制MD-MECA(multi dimension modified efficient channel attention):在C通道维度的基础上,增加H维度和W维度通道,并分别设计了相同的注意力监督模块,得到不同维度的监督权重参数。

本文设计的MD-MECA模块结构如图3所示, MD-MECA模块结构:以MECA的监督结构,分别提取基于各维度的监督权重。以C通道为例,首先,输入特征图F∈RH×W×C,通过最大池化计算和平均池化计算可产生Fmp∈R1×1×C和Fap∈R1×1×C,在C通道维度上:

0

(1)

0

(2)

式中:Max(·)表示获取最大值,Pc(·)表示第c个通道特定位置的像素值。然后将这两个计算值传送到共享权重的一维卷积神经网络,从而生成通道监督机制Mc∈R1×1×C, 然后,MECA模块应用通道相加来组合卷积层输出的特征向量,计算如下:

M(F)=σ[Conv1D(Fap)+Conv1D(Fmp)]

(3)

式中:Conv1D(·)代表一维卷积;
σ(·)代表Sigmoid函数。同样,用相同的计算方式获取基于特征图H维度和W维度的监督权重,然后以三个维度对特征图进行监督,再将其进行逐像素相加结合,得到所需的特征图。

图3 MD-MECA模块结构Fig.3 MD-MECA module structure

通过上述方法,试验对道路图像特征图进行了不同维度和层次的优化。通过将MD-MECA添加到U-Net架构的编码传递特征到解码模块,从而对编码部分所传输的细节纹理特征和语义特征进行细化。因此,解码部分所获取的道路特征对道路目标具有更好的表征能力,可以更好的对道路进行分割。

2.3 Batch Normalization 与DropBlock

Google团队在2015年提出了批归一化(batch normalization)法[15]。深度网络中,如果网络的激活输出很大,其梯度就很小,学习速率也逐渐减慢,这样,越深层的网络结构,浅层梯度很小,学习速率就慢;
深层梯度变大,学习速率就快。对于这样的网络结构来说,就失去了深层的意义。所以为了解决这类问题,在网络中使用BN(batch normalization)层通过一定的规范化手段,可解决梯度消失与梯度爆炸,同时可提升训练速度与网络收敛速度,有效防止过拟合问题。

过拟合是深度神经网络中存在的一个严重问题。网络结构越复杂,处理速度越慢,因此在测试时对不同的复杂神经网络很难处理过拟合。Srivastava等提出的Dropout同样是一种解决此问题的技术[19],其关键思想是在训练期间按照一定的概率将神经单元从神经网络中暂时丢弃。Dropout在全连接层中效果显著,但是卷积层的特征图中相邻位置元素在空间上共享语义信息,所以尽管某个单元被丢弃掉,但与其相邻的元素依然可以保有该位置的语义信息,信息仍然可以在卷积神经网络中流通。因此,针对这种问题,本文引入一种结构形式的dropout—DropBlock[16],DropBlock技术是Google Brain研发人员于2018年提出的一项在卷积神经网络中使用的正则化技术,它可以将特征图相邻区域中的单元同时丢弃,从而提高精确度。

2.4 MDAU-Net的网络结构

在U-Net的网络中采用了4次下采样,但对于遥感图像特征来说,浅层的特征具备充分的道路纹理特征,对于分割算法的轮廓还原有所帮助;
高层的语义特征则对区分道路类别有所帮助。因此,需要尽可能地结合两者的特征,补全道路信息。同时,对于遥感图像道路数据,道路特征通常相对较小,并且属于更详细的纹理特征。因而,算法需要专注于详细纹理特征级别的优化。

针对上述问题,以U-Net网络作为基本的网络结构,研究提出了MDAU-Net网络结构,整体网络结构如图4所示。MDAU-Net网络结构采用多级的下采样结构模块,通过增加模型深度来增加非线性映射,从而增强特征拟合能力。试验结构设计的7层的下采样模块,每个模块由一个3×3卷积层,再加上2×2的maxpooling层组成,卷积层后添加ReLU非线性的激活函数来加强网络对非线性特征的拟合能力,并且在每次卷积后利用DropBlock解决网络训练过程中出现的过拟合问题。对于尺寸为1 024×1 024的输入数据,影像经过编码端7次池化下采样结构,提取后影像尺寸为8×8,大小变为原影像的1/64,同时得到了7个不同层级的特征图模块。同样在上采样部分,也进行了7个阶段的上采样计算,每层分别结合下采样编码部分的特征图,同时特征拼接后使用Batch Normalization加速收敛,进行了信息补充,优化了道路分割的轮廓纹理特征。同时,将MD-MECA模块添加到每层编码部分的特征图传递部分,通过多维监督计算来优化编码部分发送的特征图,以突出显示道路几何特征并抑制背景特征。

在提出的MDAU-Net神经网络结构中,采用了多级编码和解码结构,充分利用编码部分不同层次的特征图构建更深的网络,以精细的方式提取和组合道路特征,从而获得更好的预测效果。

图4 MDAU-Net网络结构Fig.4 MDAU-Net network architecture

3.1 试验数据与数据处理

试验选择美国马萨诸塞州道路数据集 (Massachusetts roads dataset)作为试验数据,影像尺寸为1 500像素×1 500像素,空间分辨率为1 m。本文选择了数据集中600张影像用于训练,100张影像用于测试和100张影像用于验证。

在深度学习中,缺少训练样本很容易导致过度拟合,也就是说,模型过度拟合训练集上的数据,易导致对验证集预测的不准确性。本文中使用的训练集600张影像不足以进行训练。因此为增加用于训练的数据量,需对用于训练的数据影像进行处理。试验采用几何更改的方法扩充数据集,以下是本文中扩充数据集的几种方法:

1)翻转转换:沿垂直或水平方向翻转图像。

2)随机旋转变换:将图像随机旋转几个角度。

3)随机裁剪:通过图像的随机裁剪,可以获得不同位置的局部图像。

4)对比度变换:对图像随机设置对比度变换因子,以调整图像的对比度。

其中,图5(a)为未经处理的原始图像,图5(b)-图5(d)分别为顺时针旋转90°,180°,270°,图5(e)、图5(f)为以垂直、水平镜像翻转,图5(g)为对比度变换,图5(h)为随机裁剪。数据影像经几何更改的方法数据进行扩充后,共获得2000张影像与标签。最后道路数据集中,有1 400张影像为训练集,400张影像为测试集,200张影像为验证集。同时为探究数据增强策略对本试验结果是否明显提高可用于训练的数据量,分别建立数据扩充前后数据集在试验网络中进行训练,试验结果如图6所示。

试验结果表明,通过几何更改扩充后的数据影像集,道路识别效果得到有效提升。数据扩充对比试验如图6所示,区域a中有大量建筑物,在道路识别过程中,很容易将建筑物误分为道路,在数据扩充后,明显减少该类情况。区域b中,存在与道路特征相近的土地,扩充前对细小道路提取效果不佳,数据扩充后道路断裂情况减少。综上,数据进行扩充后,对试验效果有较好提升。

图5 数据扩充处理结果Fig.5 Data expansion processing results

图 6 数据扩充对比试验 Fig.6 Data expansion comparative experiment

3.2 评价指标

试验采取召回率(recall)、准确率(rrecision)和F1值(F1-measure)3个指标对分割结果进行评价。召回率指的是正确预测的正样本数占真实正样本总数的比值。准确率指的是正确预测的样本数占总预测样本数的比值,而F1值指的是准确率和召回率的调和平均。计算公式如下:

(4)

(5)

(6)

式中:TP表示提取正确的道路像素点数量;
FP表示提取错误的道路像素点数量;
FN表示遗漏的道路像素点数量。

4.1 试验环境及参数

为了验证本文提出的MDAU-Net对于在遥感图像中提取道路的可行性,以及改进后神经网络MDAU-Net提取道路特征相较于U-Net神经网络和CAR-UNet神经网络道路提取方法的优越性,本文使用同一组训练样本和测试样本进行对比试验,试验电脑操作系统为Windows,基于版本1.4.0的PyTorch深度学习框架设计,CPU配置为e2650, 显卡nvidia 1080TI×2,GPU配置为GeForce GTX 1080,显存8G。试验参数如表1所示。

表1 试验参数

4.2 试验结果分析

基于试验数据集,分别训练经典U-Net网络、CAR-UNet网络与MDAU-Net网络,并经过测试对试验结果进行详细的比较。表2为试验测试结果的精度评价。从表2可得知:在同等试验条件和数据集下,研究提出的MDAU-Net网络的各项精度指标相较于U-Net网络和CAR-UNet网络都有一定的提升,召回率、准确率和F1值分别达到77.68%、97.04%和86.29%,在道路提取方面达到了很高的要求。

表2 试验精度评价表

部分可视化结果如图7所示,从结果显示图可以看出,在U-Net提取结果影像中,存在大量孤立点,道路断裂的现象明显,存在断裂情况较多,其中,区域a和b中细小道路结构信息提取不完整;
区域c中因为建筑物密集,对阴影遮挡下的细小道路识别不好;
区域d存在少量邻近道路粘连现象。CAR-UNet提取结果的影像中,由于对边缘检测不够准确,结构信息提取不完整,导致结果存在欠分割现象,整体提取效果不佳,区域a-d道路影像仍然存在孤立点;
区域b和c中细小道路依然识别不准确;
区域d中道路粘连情况没有解决。相比以上两种方法,提出的MDAU-Net网络,则可以有效地全面提取道路,准确分割道路边缘,并且对一些细微的道路细节也可以具有较好的识别效果。区域a中,在建筑物密集或阴影遮挡区域道路提取效果较好,部分区域的断裂道路得到修复;
区域b和区域c中对一些小道路具有良好的识别效果;
对于区域d中改善了道路粘连现象,道路细节更为完整。最终的提取效果与标签影像有较高相似度。

图7 道路对比试验提取结果Fig.7 Road comparison experiment extraction results

本文针对遥感影像道路提取中存在的断裂和道路细小的问题,提出了一种基于改进U-Net网络的遥感影像道路提取方法。研究采用多维注意力模块MD-MECA与七层U-Net网络结构相结合,并在卷积层后添加DropBlock,解码路径中添加BN,提高了遥感图像中道路分割算法的准确性,同时通过试验与经典U-Net网络结构和CAR-UNet网络结构进行了对比。结果表明,该方法的召回率、准确率和F1值都得到明显的提升,最终提取效果对道路情况进行更为准确的检测分类。因此本文提出的MDAU-Net网络结构模型在遥感影像道路提取方面具有重要的实用意义。同时,提出的MD-MECA模块是一个方便嵌入的通用特征优化模块,具有较好的普适性,可对后续多种遥感图像分割分类奠定基础。但该方法中采用的激活函数无法将全部神经元激活,提升精度有限,因此对模型结构的优化,寻求最佳激活函数是进一步的研究工作。

猜你喜欢 网络结构卷积道路 基于全卷积神经网络的猪背膘厚快速准确测定农业工程学报(2022年12期)2022-09-09坚持中国道路——方向决定道路,道路决定命运当代陕西(2022年4期)2022-04-19道听途说小猕猴学习画刊(2022年3期)2022-03-28一种基于卷积神经网络的地磁基准图构建方法北京航空航天大学学报(2021年9期)2021-11-02基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02一种并行不对称空洞卷积模块①计算机系统应用(2021年9期)2021-10-11运筹70年,中国道路金桥(2019年10期)2019-08-13试论分布式计算机网络结构分析与优化科学与财富(2016年15期)2016-11-24带通信配网故障指示器故障监测方法及安装分析科技视界(2016年18期)2016-11-03一次骑行带来的感悟读写算·高年级(2015年1期)2015-07-25

推荐访问:遥感 提取 影像