基于HSV的多特征融合目标跟踪算法

刘翠，刘光杰，王政军，陆赛杰

(1. 南京理工大学自动化学院，江苏南京210094；
2. 南京地铁建设有限责任公司，江苏南京200018

基于视频图像的运动目标跟踪技术[1]一直是智能视频监控系统中的重要研究方向。目前这项技术广泛应用于自动驾驶、智能交通、医学影像、人机交互、视觉重构等领域。由于跟踪的目标容易受到光照、遮挡、形变、背景相似等问题的影响，加大了跟踪的难度，导致跟踪失败，所以多目标跟踪技术一直是一项具有重要意义和挑战的研究课题。

目前多目标跟踪算法主要由目标检测、特征提取和运动预测、相似度计算、数据关联四个步骤组成。目标检测是通过检测器获得目标的边界框；
特征提取是对每个检测框提取特征，运动预测一般通过某种滤波器预测目标在下一时刻的可能位置；
相似度计算主要计算两个目标是否属于同一个对象，最后通过关联步骤为每个对象分配ID。其中相似度计算和数据关联一直是目标跟踪技术领域的研究重点。

常用的基于IOU(Intersection over Union)关联算子[2]的跟踪算法在光线暗、对比度低、行人密集的地铁环境中无法实现行人的持续稳定跟踪，因此本文提出了一种基于深度学习目标检测的，利用目标HSV颜色空间信息[3]与位置信息的融合跟踪算法。该方法利用HSV色彩空间的良好特性，分块提取目标图像的H(色调)、S(饱和度)、V(明度)三个维度的特征，通过组合算法形成目标的特征值，在跟踪过程中，使用卡尔曼滤波器[4]对目标位置进行预测，再引入位置信息生成融合算子，通过匈牙利指派算法[5]计算匹配度，以判定目标是否跟踪成功，最后再更新卡尔曼滤波器，加强对目标的跟踪。

2.1 HSV颜色空间

由于RGB颜色空间利用三个颜色分量的线性组合表示颜色且三个分量都受亮度信息的影响，无法直观的表示颜色。HSV颜色空间是从RGB立方体模型演化而来，是一种将RGB颜色空间的点“倒”在圆锥体的表示方法，如图1所示，这种方法按照色调、饱和度和明度三个独立的属性建立起颜色空间模型。在圆锥的顶点处V=0，H和S无定义，表示黑色。圆锥的顶面中心点处S=0，V=1，H无定义，表示白色。从顶点到中心点即是亮度逐渐变亮的灰色，表示具有不同灰色的灰度。而从圆锥顶点向四处扩散即S逐渐变大的过程，表示颜色的纯度越高，色彩越鲜艳。而H色调取值范围0°～360°，以红色为0°基准点，按照逆时针的方式，绿色为120°，蓝色为240°。

由于摄像机采集的视频图像大部分是RGB颜色空间的，因此需要将图像从RGB空间转到HSV空间，其公式如式(1)、(2)、(3)所示。

图1 HSV模型图

设(r，g，b)分别是一个颜色的红、绿、蓝坐标，它们的值是在0到1之间的实数。设max等价于r、g、b中的最大者。设min等于这些值中的最小者。

(1)

(2)

v=max

(3)

2.2 Kalman滤波

Kalman滤波是根据最小均方误差准则建立起来的估计方法。它用线性递推的方法，对多个测量数据和多个信号参数进行处理，给出无偏的最小均方误差的估计。Kalman滤波用信号的前一个估计值和最近一个观察值就可以在线性无偏最小方差估计准则下，估计信号的当前值。本文利用Kalman滤波器预测跟踪器集合中的目标在下一帧中的状态。

要建立Kalman滤波模型，首先要引入一个离散控制过程的系统。该系统可用一个线性随机差分方程即状态方程来描述

xk=Φk，k-1xk-1+Wk-1

(4)

系统测量值的观测方程

Zk=Hkxk+Vk

(5)

其中xk是k时刻系统状态的n×1维状态向量，Φk，k-1是从tk-1到tk时刻系统的n×n维的状态转移矩阵，而Zk是k时刻系统的测量值，它为m×1维的状态向量；
Hk是tk时刻系统的参数，对于多测量系统，Hk为m×n维测量矩阵，Wk代表n×1维干扰向量，Vk代表m×1维观测噪声向量，它们都被假设服从高斯分布。协方差分别是Q，R(这里假设它们不随系统状态的变化而变化)。

(6)

(7)

(8)

在tk时刻，系统状态更新方程为

(9)

其中

(10)

(11)

P=(I-KkHk)P′k

(12)

给出此模型后，设Kalman滤波器系统xk=(xsk，ysk，xvk，yvk)，它有四个参数，分别代表目标在x轴和y轴上的位置和速度，而观测目标位置向量Zk=(xwk，ywk)。

由于相邻帧的图像时间间隔较短，目标的运动状态变化较小，在跟踪中估计目标状态分为三个阶段，分别为滤波器初始化、状态估计和状态更新。根据上面给出的公式即可以求出目标在下一帧的预测位置信息。

2.3 匈牙利指派

匈牙利算法是二分图匹配常用的算法，其核心是寻找增广路径，利用增广路径求二分图中的最大匹配，本文主要利用匈牙利算法解决相邻的帧之间的目标匹配问题。

二分图是指一个图中的点可以被分为两组，并且使得所有的边的连接都跨越组的边界。如图下所示，把图中所有的点划分为两个不相交集U和V，其中U上的点不能相互连通，只能连接V中的点，同理，V中的点不能相互连通，只能去连接U中的点。匹配过程如下：

1)如图2(a)中的二分图，初始状态一个匹配都没有，随意选取一条边，选取(x1，y1)这条边，构建最初的匹配关系，匹配成功后，用粗线标出，如(b)图所示。

2)匹配x2，如图中的(x2，y2)边。

图2 x1的匹配

3)继续匹配，由于y1和x1已经匹配，因此撤销x1和y1的匹配，组成(x3，y1)，此时x1寻找匹配y2，撤销x2和y2的匹配，组成(x1，y2)，x2就自动和y3匹配，组成(x2，y3)。

图3 x2的匹配

4)x4和y4匹配，组成(x4，y4)。

图4 x3的匹配

这样就完成了所有的匹配关系，达到最大匹配。本文对视频中连续两帧中的所有的检测框进行匹配，前序帧的所有检测框集合称为U，U中所有检测框X={x1，x2，…，xn}，后序帧的所有检测框集合称为V，而V中所有检测框Y={y1，y2，…，ym}，因为同一帧的不同检测框为不同的目标，所以不需要互相关联，而相邻两帧的检测框需要相互连通，最终将相邻两帧的检测框尽量两两匹配起来，这样即可以完成目标跟踪任务。

图5 x4的匹配

轨道交通场景下，如地铁站内，早高峰和节假日时间段内行人一般较为拥挤，行人和行人之间存在普遍的遮挡现象，基于遮挡的场景下大部分多目标跟踪算法的精度都会下降，如图6所示，绿色矩形框表示检测框，(a)图中后方的女乘客被其前方的男乘客遮挡后检测框只框出了上半身，(b)图中是之后几帧的图像，此时的检测框框出了整个人。此外，目标的外观形状和快速运动，在多目标跟踪的场景下，都易导致目标跟踪丢失或误跟踪。

图6 地铁站电扶梯场景下的遮挡问题

3.1 HSV关联算子

由于颜色特征对目标本身的大小、方向等依赖性较小，从而具有很强的鲁棒性。本文在数据关联上采用HSV特征，为了提高跟踪准确率，本文将行人跟踪框分为三个部分：头部、上半身、下半身，即可以同时利用发色、衣着、站姿等特征加强对同一目标的关联特性，同时分别对色调H、饱和度S以及明度V三个维度划分颜色等级，具体划分依据为

(13)

(14)

(15)

G=4H+2S+V+6

(16)

从上述的HSV颜色空间的划分可以看出，细分了6×2×2总共24个小类，再对H、S、V三个维度的直方图进行叠加统计值G，最终得到了目标的24维特征向量。根据每个目标跟踪框的BOX(X，Y，W，H)信息，将跟踪框按照Y值以1：2：2的比例划分H为三个区域，然后对三个区域分别提取HSV颜色特征，分别代表头部(feature0)、上半身(feature1)、下半身(feature2)，由于每个区域都可以得到一个24维的特征向量，最后组成一个72维的特征向量(feature)。

feature=feature0+feature1+feature2

(17)

其具体的实现步骤为：

1)将跟踪的目标按照比例分为三个区域。

2)将三个区域的RGB颜色空间转为HSV颜色空间。

3)分别对H、S、V三个维度进行特征提取。

4)利用公式(16)得到每个区域各自的特征向量。

5)最后将三个区域的特征组合得到一个72维的特征向量。

基于Kalman预测和检测框检测，可以得到两个不同的BOX(bounding box)[6]，本文对两个不同的BOX分别作上述HSV特征提取与组合，可以得到feature＿kalman(Kalman预测box1的特征向量)和feature＿detect(检测框检测box2的特征向量)两个72维的特征向量，然后利用余弦距离公式如式(18)计算余弦相似度，HSV＿Cost的值越大，表明两个BOX的相似度越高，反之越低。

(18)

3.2 位置关联算子

考虑到目标框BOX(X，Y，W，H)的位置信息影响了Kalman预测框box1与目标检测框box2的关联，同时也影响着跟踪效果，所以本文提取位置信息特征作为第二组关联信息以提高关联准确度。

(19)

式(19)中posWeight表示了位置信息的权重大小，可以进行调节。为了防止关联系数过大，采用e-|x|类函数，将关联系数限定在[0，1]之间，当A与B完全重合时，posCost=1为最大的位置关联系数。

3.3 融合关联算子

将HSV相关系数HSV＿Cost和位置相关系数Pos＿Cost进行融合，即为本文采用的融合算子Mix＿Cost，其计算公式如下所示。

Mix＿Cost=Pos＿Cost×HSV＿Cost

(20)

本文是基于目标检测的SORT算法[2]的改进版本，结合检测算法不断更新目标预测器，达到实时跟踪目标的目的。在该算法中引入融合算子Mix＿Cost进行相关性匹配，算法的核心流程如图7所示。

具体步骤：

图7 基于HSV的多特征融合目标跟踪算法流程图

1)当画面第一次检测到目标，用检测到的目标初始化并创建跟踪器集合，同时对目标进行编号(ID)。

2)在目标跟踪过程中，先由Kalman滤波器生成的状态转移矩阵和协方差矩阵预测跟踪器集合中目标可能的位置信息，然后与基于检测算法所检测到的目标信息分别利用融合算子Mix＿Cost提取关联特征，通过匈牙利指派算法计算两组关联特征的相关性匹配，找到最高相关性匹配的目标，如果大于设定的相关性阈值则认定跟踪成功。

3)利用当前画面匹配到的目标检测框信息更新Kalman滤波器，计算Kalman增益，更新状态转移矩阵和协方差矩阵，并将当前帧的目标检测框作为新的目标跟踪框，其中，对于小于相关性阈值的检测目标创建跟踪器并加入跟踪器集合中，同时对于跟踪器集合中跟踪丢失的目标设定匹配失败的次数限制，如果大于该限制次数，则认定跟踪丢失并删除该跟踪器。

4.1 HSV相关性

图8是在同一帧中出现的两个行人的画面，(a)中行人A的上身穿着黑色外套，下身穿着蓝色牛仔裤，(b)中行人B的上身穿着蓝色牛仔外套，下身穿着黑色裤子，区域分块如图。

图9是同一个人在不同帧中出现的画面，都是上图8中的行人A，(a)中行人记为A1，(b)中行人记为A2。

图8 颜色相似的行人图

图9 不同帧中的同一位行人

对上述两幅图的四个画面提取HSV特征，然后计算其余弦距离，比较整块提取和分块提取相似度的差异。

表1 不同提取方法相似度对比

从表1可以得知分块提取HSV特征对于不同目标有着更好的区分度，对于相同目标有着更高的关联性。

4.2 融合关联mix＿cost算子

下图是运动目标在相互遮挡场景下的跟踪对比，图10是不同跟踪算法在相同帧中的跟踪结果对比，图11和图12是相同目标在不同帧中的跟踪情况对比，其中图11是基于IOU关联算子的跟踪情况，图12是利用mix＿cost关联算子的跟踪情况。图中蓝色线为目标的运动轨迹，红色数字为跟踪目标的ID。

图10 IOU关联算子与mix＿cost关联算子跟踪情况

图11 IOU关联算子误跟踪

通过实验结果可以看出：

图12 mix＿cost关联算子跟踪情况

1)分块单关联HSV特征比整块单关联HSV特征对于目标有更好的关联性。

2)由于跟踪目标运动的变化，导致不同目标之间存在相互遮挡的情况，实验结果中基于IOU关联算子的跟踪算法在面对运动目标存在遮挡的情况下容易产生跟踪丢失和误跟踪，而融合关联算子mix＿cost不仅引入了关联性能更好的分块HSV特征，而且融合了目标的位置信息，进一步提升了目标信息的关联度，在同样的遮挡下能有效减少跟踪错误与跟踪丢失出现的次数。

针对轨道交通场景下行人目标跟踪困难的问题，本文提出了一种融合关联特征算子对SORT跟踪算法进行改进，并通过实验验证了该算法的有效性。对比传统主流的IOU关联算子，该融合关联算法对不同的目标区分度更强同时增大了相同目标的关联性，使跟踪错误与跟踪丢失出现的次数更少。在轨道交通场景中，有效减少运动目标因遮挡和背景相似等问题对目标跟踪带来的困难。

猜你喜欢特征向量行人算子二年制职教本科线性代数课程的几何化教学设计——以特征值和特征向量为例九江职业技术学院学报(2022年1期)2022-12-02与由分数阶Laplace算子生成的热半群相关的微分变换算子的有界性数学物理学报(2022年5期)2022-10-09克罗内克积的特征向量保定学院学报(2022年2期)2022-04-07拟微分算子在Hp(ω)上的有界性数学物理学报(2021年2期)2021-06-09毒舌出没，行人避让意林(2021年5期)2021-04-18各向异性次Laplace算子和拟p-次Laplace算子的Picone恒等式及其应用应用数学(2020年2期)2020-06-24路不为寻找者而设扬子江(2019年1期)2019-03-08一类Markov模算子半群与相应的算子值Dirichlet型刻画数学年刊A辑(中文版)(2018年2期)2019-01-08一类特殊矩阵特征向量的求法许昌学院学报(2018年4期)2018-05-02我是行人小天使·一年级语数英综合(2017年6期)2017-06-07

推荐访问:算法跟踪融合