基于深度学习的动态目标跟踪研究

谌 颃 钟 贵 戴华珍 张袖斌 朱恺文

(广州科技贸易职业学院,广东 广州 511442)

现实空间环境中动态目标对象遮挡、变形情况下的视觉跟踪,是计算机图像视觉领域研究的重要课题之一,特别是随着城市交通网络日益复杂化、城市居民数量的不断增加,对于公共空间内不同人员个体的目标对象识别和跟踪,成为计算机图像视觉识别与分析的主要方向,对于实现空间人物目标的智能化识别与监控具有现实意义。目前有关空间动态目标的识别与跟踪研究,诸如文献[1-4],这些文献从运动目标图像序列的像素点识别、像素样本学习训练、目标模板匹配等技术出发,对存在遮挡、干扰噪声的动态目标识别跟踪作出分析,但即便如此,以上算法在动态目标识别跟踪的准确性、鲁棒性和可扩展性等方面依然存在不足,在复杂光照、遮挡和变形情况下的图像处理质量仍有待提高。基于此,本文从深度学习卷积神经网络的角度出发,提出卡尔曼滤波的SiamRPN 深度学习算法进行动态目标跟踪。首先运用SiamRPN网络算法提取运动目标的检测帧、模板帧的重要特征,运用卡尔曼滤波预测模块对现有的图像帧进行目标预测,随后通过置信度加权融合2个及以上的跟踪模型,利用区域候选网络RPN对存在遮挡、背景干扰等的动态目标对象,进行跟踪框的位置坐标和尺度的计算,确定最优跟踪框准确地定位跟踪目标位置,实现对全遮挡目标、噪声干扰目标的多次跟踪识别,提高外部环境中动态目标的跟踪准确率。

2.1 Siamese跟踪网络框架架构

Siamese跟踪网络是在Faster RCNN网络框架的基础上,建立起的用于区域候选网络确定、目标对象特征提取的卷积神经网络。[1]其中,RPN网络判断图像帧的空间环境中,是否有动态监测目标,以及修正anchor 使跟踪框更准确,且RPN网络的区域候选框提取、目标对象跟踪耗时更少,具体Siamese跟踪网络框架如图1所示。

图1 Siamese动态目标跟踪网络框架

从图1可以看出,Siamese网络框架为具有孪生结构的深度学习模型,分为搜索区域确定、动态跟踪目标特征提取两个分支,左边上下两个支路为动态目标特征提取的孪生网络,支路的网络结构、提取特征参数完全相同,根据上方靠近候选区域的目标模板帧,对下方的提取检测帧作出对比分析,通过全卷积神经网络形成2个分支的连接。

右边为搜索区域确定并输出的孪生网络,中间为搜索区域学习与提取网络,包括分类分支、回归分支,这里分类分支输出含有2k个通道的特征图像,红色和蓝色分别表示k个锚点的前景得分、背景得分;
回归分支输出含有4k个通道的特征图像,用不同颜色分别表示k个锚点的坐标偏移预测值。

基于Siamese 网络框架的动态目标跟踪,是在图像搜索区域x内,找到与模板帧z最相似的目标跟踪对象。[2]因而在Siamese全卷积网络中,采用完全卷积函数h(),引入LT来表示平移算子,则对任意图像帧平移转换T、整数步长k之间的关系定义如式1:

计算图像帧搜索区域x的所有目标跟踪对象,与模板帧z之间的相似性。使用卷积网络嵌入函数ψ,计算搜索区域的目标跟踪对象x、模板帧z的相似性,计算公式如式2所示:

其中f表示相似性函数,*表示相关性操作符,φ(x)表示搜索图像对象、φ(z)表示模板帧图像。

2.2 SiamRPN深度学习算法

SiamRPN 算法包括目标对象特征提取、分类回归、分支回归计算等执行流程,其中分类回归是对图像搜索区域内,存在的模板帧作出卷积运算;
分支回归是对图像搜索区域内,存在的检测帧作出卷积运算[3],计算公式如式3:

其中(Adx,Ady)为锚点框的中心点坐标,Adw、Adh为锚点框的长和宽;
(Tdx,Tdy)为真实检测框的中心点坐标,Tdw、Tdh为真实检测框的长和宽,由于不同提取图像的长和宽存在差异,因而需先对图像尺寸作正则化处理。

采取RPN孪生网络的端到端训练方式,在图像搜索区域内随机提取模板帧、检测帧,进行锚框、真实检测框的相似性识别训练。由于相邻两帧的目标跟踪对象变化较小,因而选取[0.33,0.5,1,2,3]等5种不同比例的锚,结合公式3、4,对0、1、2、3 等不同检测框作出样本训练识别,真实框样本的正则化处理、损失函数如式5、6所示:

其中Lcls表示检测图像的目标对象交叉的熵损失;
λ表示分类或分支回归的损失参数。在RPN 孪生网络的锚框识别训练时,使用锚点框、真实目标对象框的交并比(IOU),判断识别的目标对象框属于正样本或负样本,定义IOU>0.6 为正样本、IOU<0.3 为负样本。

3.1 卡尔曼滤波模型

卡尔曼滤波是利用观测方程、状态方程,对动态目标的状态进行实时跟踪、迭代预测的方法。当跟踪动态目标受到遮挡、噪声干扰等影响时,将很大可能导致动态目标跟丢的问题。[4]这一情况下,使用卡尔曼滤波器、滤波回归算法,可对受到遮挡、噪声干扰的目标对象,进行目标位置预测及标记,以保证前后相邻帧目标对象跟踪的连续性。当前卡尔曼滤波模型的状态转移方程、观测方程如式7、8所示:

3.2 基于卡尔曼滤波的跟踪目标对象位置估算

在使用卡尔曼滤波模型,对动态跟踪目标的状态进行预测时,首要任务是确定图像帧中目标的初始状态。假定某一动态跟踪目标的状态为x=(p,v),其中p表示目标对象的位置、v表示目标对象的速度[5],则跟踪目标的状态向量、观测方程可用如式11、12表示。

其中x(0)表示观测目标的初始状态、θ 表示目标对象的转动角度。在初始化阶段定义目标的模板帧为zpos,采用卡尔曼滤波模型,对目标对象将会出现的区域作出预测,计算公式为式13、14,根据公式13 计算得到预测目标对象的下一位置,多次迭代后得出目标跟踪的最优化估计结果。

面对跟踪动态目标存在遮挡、噪声干扰的情况,提出卡尔曼滤波模型、SiamRPN 深度学习算法相融合跟踪的方式,完成目标对象跟踪的总体流程设置,[6]具体如图2所示。

图2 卡尔曼滤波模型、SiamRPN融合算法的目标跟踪实现

首先使用跟踪器采集图像帧,使用RPN网络确定跟踪目标的候选区域。随后在初始化模块中,将目标对象的初始框中心点、坐标位置,赋值给卡尔曼滤波器、SiamRPN 神经网络,并对卡尔曼滤波器中的跟踪目标初始状态、初始预测值作出修改。

然后由SiamRPN神经网络算法,进行跟踪目标对象的分类回归、分支回归卷积运算,提取图像搜索区域内的检测帧特征,包括动态目标对象跟踪框的位置坐标、尺度信息。最后将使用SiamRPN深度学习算法、卡尔曼滤波器,得到的目标对象跟踪框置信度值k1、k2,作出自适应的加权融合计算,得到加权融合后的最优跟踪框值x为如式15、16:

其中w1、w2表示SiamRPN 网络算法、卡尔曼滤波器的加权因子。假设使用SiamRPN 深度学习算法、卡尔曼滤波器,得到的动态目标对象跟踪框值分别为x1、x2,则利用公式15可得到加权融合后的目标最优跟踪框值x。

5.1 实验环境及参数设置

基于Linux 系统平台、MATLAB R2021a 仿真软件,建立包含100 个视频的OTB 跟踪数据集(100 帧),该数据集中涉及到跟踪目标对象,存在快速运动、背景相似、噪声干扰、光照变化等一系列问题,基本上能够全面反映卡尔曼滤波器、SiamRPN网络算法的目标跟踪性能。

利用RPN 区域候选网络,对OTB 跟踪数据集的两个卷积层参数作出调整,通过以上的损失函数进行参数优化。假设跟踪目标对象的边界框的大小表示为(w,h),则将裁剪后的模板帧大小设置为A*A,计算公式如式17:

其中p=(w+h)/2,按照图1 的跟踪目标对象帧要求,将裁剪后的模板帧大小调整为127×127,将检测帧设置为模板帧大小的2倍为255×255。

5.2 定性分析

选取OTB跟踪数据集内的3组典型跟踪数据序列,设置为Soccer、Human6 和Bolt2 序列,其中Soccer 序列内的跟踪目标对象,存在着遮挡、快速运动等影响因素;
Human6 和Bolt2 序列的跟踪目标对象,存在着遮挡、平面旋转、运动模糊等影响因素。采用卡尔曼滤波器、SiamRPN 深度学习算法,对以上3组序列的动态目标对象作出跟踪,具体的跟踪结果如图3所示。

图3 Soccer、Human6和Bolt2序列的目标对象跟踪结果

从图3 可以看出,最上层一组跟踪图像为Soccer 序列图像,其存在着遮挡、快速运动等的干扰因素。在目标对象未经过红绿灯杆时,采用卡尔曼滤波器(红框)、SiamRPN 网络算法(绿框)及SianFC 单目标跟踪算法(蓝框),都能够顺利完成对动态行人目标的有效跟踪,且跟踪精度差异不大。而当目标遇到红绿灯杆的遮挡后(#56,#67 帧),基于SianFC算法的单目标跟踪很快丢失目标,卡尔曼滤波器、SiamRPN网络算法的跟踪仍旧保持着较高精度,其中SiamRPN 深度学习算法的跟踪精度最高,跟踪效果基本上不受外部干扰因素的影响。

图3 的中间层为Human6 序列,跟踪目标对象存在着平面旋转、运动模糊等影响因素,如发现38帧以后跟踪目标快速运动、伴随运动模糊,此时采用卡尔曼滤波器、SiamRPN深度学习算法相融合的跟踪方式,均可以保证在连续多帧时间内的跟踪效果。图3的最下层为Bolt2序列,跟踪目标对象存在着遮挡、平面旋转等影响因素,在20~78 帧是的跟踪时间范围内,发现使用卡尔曼滤波器、SiamRPN深度学习算法,均能保证跟踪框、标记目标对象的跟踪精准性,而SianFC算法在面对人物遮挡的情况,很容易发生再次识别的跟踪丢失问题。综上分析可知,在上中下三组图像的目标对象跟踪中,基于卡尔曼滤波的SiamRPN算法,可被用于含有遮挡、平面旋转、快速运动的跟踪情况,且具有明显的算法跟踪优势。

5.3 定量分析

根据跟踪目标的中心位置误差(CLE)、重叠率(OR)等量化的度量指标,对使用卡尔曼滤波器、SiamRPN 网络算法、SianFC 算法、融合算法的目标跟踪精度,进行量化性能分析。通常情况下,跟踪目标的中心位置误差、重叠率成反比,也即CLE越小时OR越大,跟踪精度越高。利用以上多种算法,进行目标对象帧测试序列的跟踪分析,得到的CLE、OR相关量化指标结果如表1、表2所示。

表1 动态目标跟踪的中心位置误差(CLE)结果

表2 动态目标跟踪的重叠率(OR)结果

从表1、表2可以看出,针对以上三组跟踪目标序列的测试视频帧,使用“卡尔曼滤波+SiamRPN算法”的跟踪方式,平均跟踪速率为37帧/秒,高于SianFC算法的18帧/秒、低于SiamRPN算法的49帧/秒,满足目标跟踪的图像帧实时性处理需求。同时相比于卡尔曼滤波器、SiamRPN 网络算法、Sian-FC 算法而言,融合算法得到的动态目标跟踪的中心位置误差(CLE)更小,目标跟踪的重叠率(OR)更高,在运行实时性、跟踪精度方面体现出良好的性能。

外部空间环境中动态目标对象的视觉跟踪,是近年来计算机视觉及姿态评估等领域关注的重要问题。特别在面对具有噪声干扰、遮挡、变形的复杂场景中,需要采取滤波器目标跟踪、相邻两帧关联分析的级联匹配方法,对包含多个目标的变量问题作出跟踪分析。因此,在Faster RCNN 网络框架的基础上,建立用于区域候选网络确定、目标对象特征提取的卷积神经网络,使用卡尔曼滤波模型、SiamRPN 深度学习的融合算法,进行图像帧关联分析,解决相似目标的运动检测、交互或遮挡监测问题,对跟丢或再次出现的目标作出准确识别,相比于传统的动态目标跟踪算法的识别跟踪性能更优。

猜你喜欢 跟踪目标卡尔曼滤波卷积 基于自适应α-β滤波算法的机动目标跟踪方法信息记录材料(2023年9期)2023-10-31基于3D-Winograd的快速卷积算法设计及FPGA实现北京航空航天大学学报(2021年9期)2021-11-02从滤波器理解卷积电子制作(2019年11期)2019-07-04基于傅里叶域卷积表示的目标跟踪算法北京航空航天大学学报(2018年1期)2018-04-20基于递推更新卡尔曼滤波的磁偶极子目标跟踪北京航空航天大学学报(2017年9期)2017-12-18基于图割理论的尺度自适应人脸跟踪算法计算机应用(2017年4期)2017-06-27连续同色调背景下运动目标自适应跟踪计算机应用与软件(2016年11期)2016-12-26基于模糊卡尔曼滤波算法的动力电池SOC估计电源技术(2016年9期)2016-02-27基于扩展卡尔曼滤波的PMSM无位置传感器控制电源技术(2015年1期)2015-08-22基于卡尔曼和图像信息量的Mean Shift改进跟踪算法电视技术(2015年5期)2015-06-22

推荐访问:跟踪 深度 目标