一种面向人群计数的卷积注意力网络模型

朱宇斌,李文根,关佶红,张毅超

同济大学 计算机科学与技术系,上海 201804

在过去十几年中,目标计数问题受到专家学者的广泛关注,它旨在分析计数特定场景中目标的数量。随着世界人口的爆炸性增长和城市化进程不断加深,目标计数问题中的人群计数问题变得越来越重要,对于解决人群聚集等相关问题具有意义。

图1人群计数技术发展时间线Fig.1 Timeline of crowd counting

人群计数作为群体事件分析的重要一环,能够针对特定场景下人群目标数量进行估计,在重大事件的事先告警与事后复盘中具有重要应用。另外,人群计数方法能够辅助实现实时预测场景人数,进而有效减少人群聚集,这对当下新冠肺炎疫情的控制具有关键作用。人群计数旨在计算给定输入图片中的人数。与目标检测、目标追踪等计算机视觉问题不同,人群计数将重点放在“计数”上,而无需关心目标的位置。整体来看,现有人群计数方法主要有三大类[1]:基于检测的方法、基于回归的方法和基于卷积神经网络(convolutional neural network,CNN)的方法。

如图1展示了人群计数相关技术发展时间线[1]。在人群计数发展初期,人们想到如果能够使用模型准确地检测出视频或图片中的每个目标,那么可以很好地计算总数。故而提出了基于检测的方法[2-4]。由于其准确性和模型性能受到图像分辨率低、目标大小不一、目标重叠模糊等因素的限制,研究者提出了基于回归的模型[5-7],进一步提升了计数效果。然而,回归模型的相关方法仍然忽视了空间尺度的相关信息,仅得到一个计数结果,不能学习到目标的分布,导致其结果缺乏可信度和可解释性。近年来,由于基于CNN的模型能够提取出有效的空间尺度、纹理特征等深层信息,在复杂监控环境下的图片和视频数据上表现优异,成为人群计数领域的一大研究热点。目前,大多数基于卷积神经网络的方法都是多列的网络结构,并使用多任务学习和全监督学习的方式训练模型。

为解决人群计数中存在的背景干扰、目标遮挡、目标尺度不一和目标分布不均等问题,不少专家学者进行了许多新颖的尝试和改进[8]。MCNN[9]能够一定程度上缓解目标尺寸大小不一的问题,但对于背景干扰、目标遮挡和目标分布不均等问题却没有很好地解决。Switching CNN[10]通过训练一个回归器来拟合最终的结构,能够从一定程度上缓解人群计数问题中目标尺度不一和目标分布不均的问题,但对于背景干扰和目标遮挡两个问题并没有得到解决。BL[11]通过直接学习标注点的分布,从而对背景的干扰进行了屏蔽。同时将网络模型的参数更加高效地用在解决目标分布和目标尺度问题上,对现有人群计数算法是一个很好的启发——可以通过直接关注标注位置本身学习训练模型,来获得比模糊处理标记训练更好的效果。

目前人群计数研究仍然存在诸多不足:

问题1现有方法通常使用高斯模糊预处理数据,从而平滑标记点,但这种做法会使背景和目标变得更加难以区分,增大了背景干扰带来的影响。

问题2目标遮挡带来的计数误差问题在领域内仍然没有较好方法来解决。

问题3从研究现状可以发现,目前大多数网络模型仍然采用多列网络结构。虽然这类方法能够有效地在每一列提取不同尺度的目标特征,但列间存在着大量冗余,并不能有效解决目标尺度不一的问题。

问题4仍然没有一个有效的方法既能感知目标在图片上的尺度的变化规律,又能提取图片中空间上的特征。

本文旨在针对这些存在的问题提出相应的解决方案,进而提高人群计数的准确度。

针对当前人群计数问题存在的四大难点,提出了一种基于相似性度量的卷积注意力网络(similarity measured convolutional attention network,SMCAN)。如图2展示了SMCAN网络的基本结构。该网络包含主干网络、注意力模块和回归卷积层三个模块,并通过使用基于相似性度量的损失函数来定义预测密度图与真实密度图之间的损失。

图2 SMCAN网络结构Fig.2 Network structure of SMCAN

下面将分别介绍SMCAN网络三个模块的功能、结构和技术细节。

1.1 主干网络

主干网络是指整个模型中最开始的若干层,其作用是提取图片中目标的基本特征。主干网络的有效性和复杂程度很大程度上影响最终人群计数结果的好坏。因此,在人群计数问题中,相关算法模型通常采用预训练好的卷积神经网络作为主干网络,并使用迁移学习来微调其参数。如图3表示SMCAN网络的主干网络结构,其输入图像为原始图片,依次通过通道数为64、128、128和512的卷积层,得到大小为原始图片1/64的输出层。

图3 SMCAN主干网络结构Fig.3 Backbone network structure of SMCAN

SMCAN的主干网络使用VGG16[12]的前4个卷积层,其权重通过在ILSVRC16数据集上预训练得到,所以其输出层包含了原始图像中深层次的特征,有利于空间和尺度注意力模块的特征提取。

1.2 注意力模块

如图4表示SMCAN网络的注意力模块的具体结构。模块的输入层大小为C×W×H,其中C、W和H分别代表通道数、宽度和高度,输出层的大小与输入层相同。

图4 注意力模块结构Fig.4 Attention module stracture of SMCAN

在尺度注意力模块中,输入层首先通过一个1×1卷积,将其结果分别进行变形和变形转置操作生成特征图F1和F2,其中F1的大小为C×HW,F2的大小为HW×C。之后,将F1与F2相乘,得到大小为C×C的特征图F3。然后,F3经过softmax激活函数得到特征图F4。该过程可表示为:

类似地,在空间注意力模块中的变换过程可以表示为:

尺度注意力模块和空间注意力模块的不同之处在于:

(1)从输入输出上看,尺度注意力模块和空间注意力模块的输入层和输出层大小是一致的,但生成特征图的方法不同。尺度注意力模块仅使用一个1×1卷积来提取注意力特征,而空间注意力模块使用了三个。对于尺度注意力模块,使用同一个卷积核能够让该模块后续的网络结构不需要关心空间上的变化,而是将重点放在不同尺度上。

(2)从注意力角度上看,两个模块的特征图F4都蕴含了注意力信息。在尺度注意力模块中,通过对尺度间相关性的注意来感知尺度间相似的局部图案和纹理特征。在空间注意力模块中,则将关注重点放在图片中目标的集中区域和全局呈现的透视现象上,从而提取对应的空间注意力特征。

尽管尺度注意力模块和空间注意力存在差异,但从整体思路上看,其二者都是将输入层变形为特定的维度,通过在该维度上的信息自乘得到注意力信息。经过对注意力信息和输入信息的融合,最终得到含有注意力特征的输出。如果同时使用这两个模块来处理图像,理论上能在一定程度上解决人群计数中目标尺度不一和目标分布不均的问题。

1.3 回归卷积层

如图5所示,SMCAN网络的回归卷积层首先将提取到的尺度和空间注意力特征连接起来,随后连接一个卷积核大小为1×1、输出通道数为1的卷积层。其目的是将注意力模块得到的信息通过类似于“回归”的卷积操作得出目标的个数,每个位置上的目标个数组合起来便形成了密度图,不过大小是原始图片的1/64。最后将回归卷积得到的密度图通过插值上采样方法,生成与原图大小一致的预测密度图。

图5 回归卷积层结构Fig.5 Structure of regression convolutional layer

1.4 损失函数

针对人群计数问题中背景干扰和目标遮挡两大问题,引入基于相似性度量的损失函数[13]:

其中,LMAE(μ,ν)、LEMD(μ,ν)、LTV(μ,ν)分别为平均绝对误差损失项、推土机距离损失项和全变差距离损失项,λ1和λ2为超参数,分别用于调节推土机距离损失和全变差距离损失的权重。基于推土机距离损失项的优势在于可以直接度量预测密度图与真实密度图之间的相似性,进而替代通过高斯模糊预处理数据来度量预测密度图与模糊后的真实密度图的相似性。基于全变差距离损失项的优势在于可以通过度量概率分布的总体变化来计算预测密度图与真实密度图之间的差异,从而降低由目标遮挡带来的计数影响。该损失函数能够定量计算预测密度图与真实密度图的差异,缓解背景干扰和目标遮挡问题。

2.1 评价指标

本文使用平均绝对误差(mean absolute error,MAE)和均方根误差(mean squared error,RMSE)两个指标来评价人群计数方法的性能。两个评价指标的计算公式如下:

其中N为测试图片的数量,和分别代表图片人群数量的预测结果和真实值。严格来说,MAE反映了预测的准确性,RMSE反映了预测的稳定性和鲁棒性。

2.2 实验配置

为了验证提出方法在不同场景下的效果,本文将使用三个公开的数据集进行实验。

(1)Shanghai Tech数据集[9]:Shanghai Tech数据集最早由MCNN在2016年使用,是大规模人群计数数据集之一。该数据集由1 198张图像和330 165个标注组成,并根据不同的密度分布,分为Part A和Part B两部分。Part A包含482张图片,平均分辨率为589×868;
Part B包含716张图片,平均分辨率为768×1 024。该数据集中训练集和测试集的每一张图片都对应一个.mat格式的标注文件,其中包含目标的位置信息。需要注意的是,Part A图片的复杂程度远高于Part B,具体表现在目标的分布以及数量上。因此,Part A上的绝对误差一般比Part B高。

(2)UCF-QNRF数据集[14]:UCF-QNRF是2018年发表的数据集,包含1 535张富有含挑战性的图片和125万个标注。图片的平均分辨率达到了2 013×2 902,平均每张图片的目标数量为815。

(3)NWPU数据集[15]:NWPU是2020年公开的数据集,包含5 109张图像和2 133 238个标注。相比于以往的数据集,该数据集除了数据量更大外,还有负样本和高分辨率图片,图片的平均分辨率达到2 311×3 383的图片。

由于使用高斯模糊对原始图片中的标记点进行平滑处理会对最后网络模型的泛化性能造成严重的损伤,实验将直接采用真实标记数据替代以往的高斯模糊处理。

此外,当图片较大、分辨率高和目标较多时,经过环境测试发现单一块显卡无法支持大图片的训练。因此,在不增加实验成本的情况下,本实验将UCF-QNRF和NWPU数据集中的高清图片拆分为四部分进行预测,并将得到的图片拼接、人数相加得到最终预测结果。

表1列举了实验环境的各项参数。在模型训练时,根据实验分析,损失函数中的权重参数λ1和λ2分别设置为0.01和0.1。

表1 实验环境信息Table 1 Information of experimental environment

2.3 方法对比实验结果

实验对比了SMCAN网络与主流人群计数模型的性能,包括MCNN[9]、CMTL[16]、Switching CNN[10]、ACSCP[17]、CSRNet[18]和CFF[19]。表2、表3和表4分别展示了各类模型在Shanghai Tech、UCF-QNRF和NWPU数据集上的实验结果。从表中可以看出,从SMCAN与经典人群计数方法实验结果的定量数据与对比来看,相比单独使用相似性度量损失函数和注意力模块,SMCAN在Shanghai Tech数据集上取得了更好的效果,其Part A的MAE和RMSE均超过了CFF模型。在NWPU上的实验数据也充分说明了SMCAN优秀的预测效果。

表2 Shanghai Tech数据集实验结果Table 2 Experimental results on Shanghai Tech

表3 UCF-QNRF数据集实验结果Table 3 Experimental results on UCF-QNRF

表4 NWPU数据集实验结果Table 4 Experimental results on NWPU

如图6对SMCAN网络的预测效果进行了可视化,展示了不同场景下的人群计数结果。从预测的直观效果来看,SMCAN在3个数据集上都取得了较好的预测效果,其预测密度图与真实密度图分布大致相同,而且计数结果较为准确。特别地,针对图第一行中目标尺度不一,图第二行、第四行中目标分布不均,图第三行中背景干扰和图第五行中目标遮挡问题,该模型均能较为准确地预测。因此,SMCAN通过结合基于相似性度量的损失函数和基于注意力机制的卷积神经网络模块,能够有效解决基于视觉的人群计数问题存在的四大挑战,具有较高的实用价值。

图6 SMCAN预测效果样例Fig.6 Samples of SMCAN prediction effects

2.4 模块有效性分析实验结果

为了进一步验证尺度注意力模块和空间注意力模块在SMCAN网络中的有效性,设计了如下4组对比实验:

组1原始VGG16模型;

组2 VGG16与尺度注意力模块组合;

组3 VGG16与空间注意力模块组合;

组4提出的SMCAN网络。

4组实验均采用基于相似性度量的损失函数进行训练。表5展示了4组实验的结果。分别对比组1和组2、组3和组4可以发现,尺度注意力模块能够有效提高人群数量预测的准确性和稳定性。另外,分别对比组1和组3、组2和组4可以发现,空间注意力模块也能够提高预测准确性和稳定性。另外还可以发现,SMCAN中基于相似性度量的损失函数与空间和尺度注意力模块兼容性良好,从RMSE来看,SMCAN具有较好的稳定性。

表5 实验结果对比Table 5 Comparsion of experimental results

为了同时解决人群计数的四大挑战,本文结合基于相似性度量的损失函数和基于注意力机制的卷积神经网络模块,提出了一种基于相似性度量的卷积注意力网络SMCAN。该网络通过将基于推土机距离的损失项、基于全变差距离的损失项、尺度注意力模块、空间注意力模块与传统的VGG16网络有机结合起来,在多个数据集上取得了很好的人群计数效果。

猜你喜欢 尺度计数注意力 让注意力“飞”回来小雪花·成长指南(2022年1期)2022-04-09古人计数数学小灵通(1-2年级)(2021年11期)2021-12-02递归计数的六种方式中等数学(2020年8期)2020-11-26财产的五大尺度和五重应对内蒙古民族大学学报(社会科学版)(2020年2期)2020-11-06古代的计数方法小学生学习指导(低年级)(2020年4期)2020-06-02结绳计数意林(儿童绘本)(2018年3期)2018-05-09“扬眼”APP:让注意力“变现”传媒评论(2017年3期)2017-06-13A Beautiful Way Of Looking At Things第二课堂(课外活动版)(2016年2期)2016-10-21宇宙的尺度太空探索(2016年5期)2016-07-129时代英语·高三(2014年5期)2014-08-26

推荐访问:卷积 注意力 计数