FEATURE FUSION AND DENSE CONNECTION BASED INFRARED PLANE TARGET DETECTION METHOD

28-05-2020 дата публикации

Номер:

WO2020102988A1

Автор: ZHOU, Huixin, ZHANG, Jiajia, SHI, Yuanbin, ZHAO, Dong, GUO, Lixin, QIN, Hanlin, WANG, Bingjian, LAI, Rui, LI, Huan, SONG, Jiangluqi, YAO, Bo, YU, Yue, JIA, Xiuping, ZHOU, Jun

Принадлежит: 西安电子科技大学

Контакты:

Номер заявки: CN64-11-201887

Дата заявки: 20-11-2018

基于特征融合和稠密连接的红外面目标检测方法

技术领域

[1]

本发明属于图像处理技术领域，具体涉及一种基于特征融合和稠密连接的红外面目标检测方法。

背景技术

[2]

目前，主要的目标检测方法可以大致分为两类，一类是基于背景建模的目标检测方法，一类是基于前景建模的方法，基于背景建模的方法通过构建背景模型，将图像中与背景差异大的区域判定为目标；由于背景的复杂性，此种方法的检测效果不够理想。基于前景建模的方法通过提取目标的特征信息，将与特征信息相符较多的区域判定为目标，其中，最具代表性的是基于深度学习的目标检测方法。基于深度学习的目标检测方法通过深层卷积神经网络，自动提取目标特征，检测目标种类与位置。然后与训练集中的标定信息进行对比，计算损失函数，通过梯度下降的方法，改进网络提取的特征，使其更符合目标的实际情况。同时，更新后续检测部分的参数，使检测结果更准确。不断重复训练，直到达到预期的检测效果。

[3]

发明内容

[4]

为了解决现有技术中的上述问题，本发明提供了一种基于特征融合和稠密块的目标检测方法。

[5]

本发明采用的技术方案如下：

[6]

本发明实施例提供一种基于特征融合和稠密连接的红外面目标检测方法，该方法通过如下步骤实现：

[7]

步骤1，构建包含所需识别目标的红外图像数据集，在所述红外图像数据集中标定所需识别目标的位置与种类，获得原有已知的标签图像；

[8]

步骤2，将所述红外图像数据集分为训练集和验证集两部分；

[9]

步骤3，对训练集中的图像进行图像增强的预处理；

[10]

步骤4，对预处理后的图像进行特征提取和特征融合，并通过回归网络获得分类结果和边界框；将所述分类结果和边界框与原有已知的标签图像进行损失函数计算，使用包含动量的随机梯度下降法在卷积神经网络中对预测误差进行反向传播，并更新卷积神经网络的参数值；

[11]

步骤5，重复步骤3、4对卷积神经网络参数进行迭代更新，直至误差足够小或迭代次数达到设定的上限为止；

[12]

步骤6，通过训练完成的卷积神经网络参数对验证集中的图像进行处理，获取目标检测的准确度和所需时间，以及最终目标检测结果图。

[13]

上述方案中，所述步骤4中对预处理后的图像进行特征提取和特征融合，并通过回归网络获得分类结果和边界框，具体通过以下步骤实现：

[14]

步骤401，在所述训练集中随机抽取固定数量的图像，对每一幅图像划分10×10的区域；

[15]

步骤402，将所述步骤401划分后的图像输入稠密连接网络进行特征提取；

[16]

步骤403，对提取的特征图进行特征融合，获得融合的特征图；

[17]

步骤404，对所述融合的特征图中每一个区域产生固定数量的建议框；

[18]

步骤405，将所述融合的特征图和建议框送入回归网络进行分类和边界框回归，并使用非极大值抑制方法去除冗余，获得分类结果和边界框。

[19]

上述方案中，所述步骤402中稠密连接网络的计算方法如公式：

[20]

d_l＝H_l([d₀,d₁,...,d_l-1])

[21]

其中，d_l表示稠密连接网络中第l个卷积层的输出结果，若稠密连接网络共包含B个卷积层，则l在0～B之间取值，H_l(*)是正则化、卷积和线性整流激活函数的组合操作，d₀为输入图像，d_l-1为第l-1层的输出结果。

[22]

上述方案中，所述步骤403中对提取的特征图进行特征融合是将所提取到的不同尺度的特征图通过池化方法进行直接融合。

[23]

上述方案中，所述步骤403中对提取的特征图进行特征融合，具体通过以下步骤实现：

[24]

步骤4031，将第一组特征图F₁通过池化运算，转换成新的较小的特征图，再与第二组特征图F₂融合得到新的特征图F₂’；

[25]

步骤4032，将新的特征图F₂’通过池化运算，再与第三组特征图F₃融合得到新的特征图F₃’；

[26]

步骤4033，用新的特征图F₂’和F₃’代替第二组特征图F₂和第三组特征图F₃进入回归网络。

[27]

上述方案中，所述步骤405中将所述融合的特征图和建议框送入回归网络进行分类和边界框回归，并使用非极大值抑制方法去除冗余，获得分类结果和边界框，具体通过以下步骤实现：

[28]

步骤4051，将特征图划分为10×10个区域，输入回归检测网络；

[29]

步骤4051，对于每一个区域，回归检测网络将输出7个可能存在的目标的位置与种类；其中，目标种类共有A个，即输出对应A种目标的可能性，与训练集的设置有关；位置参数包含3个数据，包括目标边界框的中心位置坐标、宽、高；

[30]

步骤4052，非极大值抑制方法是对于获得的同一种类边界框，使用以下公式计算其交并比：

[31]

[32]

其中，S为计算所得的交并比，M，N表示同一类目标的两个边界框，M∩N表示边界框M与N的交集，M∪N表示边界框M与N的并集。对于S大于0.75的两个边界框，剔除其中分类结果值较小的边界框。

[33]

上述方案中，所述步骤4中将所述分类结果和边界框与原有已知的标签图像进行损失函数计算，使用包含动量的随机梯度下降法在卷积神经网络中对预测误差进行反向传播，并更新卷积神经网络的参数值，具体通过以下步骤实现：

[34]

步骤401，根据所述分类结果和边界框中目标的位置与种类以及训练集中标定的所需识别目标的位置与种类计算损失函数，损失函数的计算公式如下所示：

[35]

[36]

其中，100为区域数量，7为每个区域需要预测的建议框和最终生成的边界框数量，i为区域编号，j为建议框和边界框编号，loss为误差值，obj表示存在目标，noobj表示不存在目标，x和y分别为建议框和边界框中心的横坐标和纵坐标的预测值，w和h分别为建议框和边界框的宽和高的预测值，C为建议框和边界框是否包含目标的预测值，包含A个值，分别对应A类目标的可能性，为对应的标注值，和分别表示目标落入和未落入区域i的第j个建议框和边界框内；

[37]

步骤402，根据损失函数计算结果，使用包含动量的随机梯度下降法对权重进行更新。

[38]

上述方案中，所述步骤3的预处理为通过随机旋转、镜像、翻转、缩放、平移、尺度变换、对比度变换、噪声扰动和颜色变化扩充训练集。

[39]

与现有的技术相比，本发明通过对红外图像进行学习，使目标检测网络获得对可见光与红外目标的识别能力，同时，通过改进网络结构，使本方法相对传统深度学习方法具有更好的检测效果。

附图说明

[40]

图1为本发明的流程图；

[41]

图2为本发明的网络结构图；

[42]

图3为本发明的结果图。

具体实施方式

[43]

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[44]

本发明实施例提供一种基于特征融合和稠密连接的红外面目标检测方法，如图1所示，该方法通过以下步骤实现：

[45]

步骤1、构建数据集

[46]

如果需要检测算法具有对红外图像进行识别的能力，需要在数据集中加入红外图像。本发明使用红外图像构建数据集，使用边界框对数据集中图像进行人工标记。

[47]

步骤2、扩充训练集

[48]

通过随机旋转、镜像、翻转、缩放、平移、尺度变换、对比度变换、噪声扰动和颜色变化等方法，扩充训练集。可以弥补数据集采集困难的缺点，提高小数据集的训练效果。

[49]

步骤3、划分10*10区域

[50]

将原图像划分为10*10的区域，每个区域分别负责检查中心落入该区域的目标，可以大大加快检测速度。

[51]

步骤4、使用稠密网络进行特征提取

[52]

特征提取过程包含以下步骤：

[53]

第一步，使用卷积核大小为3*3，数量为32的卷积层对输入图像进行计算，然后进行2*2的池化运算，得到特征图F₁。

[54]

第二步，使用包含64个3*3卷积核与64个1*1卷积核的稠密块对F₁进行特征提取，同时计算残差，然后进行2*2的池化运算，得到特征图F₂。

[55]

第三步，使用包含64个1*1卷积核与64个3*3卷积核的稠密块对F₂进行特征提取，同时计算残差，然后进行2*2的池化运算，得到特征图F₃。

[56]

第四步，使用包含64个1*1卷积核与64个3*3卷积核的稠密块对F₄进行特征提取，然后进行1*1的卷积，同时计算残差，最后进行2*2的池化运算，得到特征图F₄。

[57]

第五步，使用包含256个1*1卷积核与256个3*3卷积核的稠密块对F₄进行特征提取，然后进行1*1的卷积，同时计算残差，最后进行2*2的池化运算，得到特征图F₅。

[58]

第六步，使用包含1024个1*1卷积核、1024个3*3卷积核和1024个1*1卷积核的稠密块对F₅进行特征提取，然后进行1*1的卷积，同时计算残差，得到特征图F₆。

[59]

步骤5、对特征提取结果进行特征融合

[60]

特征融合的方法包含以下步骤：

[61]

第一步，提取步骤3中所得的特征图F₄、F₅、F₆。

[62]

第二步，对特征图F₄进行4次2*2池化，分别取四领域中左上，右上，左下，右下的点，形成新的特征图F₄’，与特征图F₅组合成特征图组F₇。

[63]

第三步，对特征图F₇进行4次2*2池化，分别取四领域中左上，右上，左下，右下的点，形成新的特征图F₇’，与特征图F₆组合成特征图组F₈。

[64]

步骤6、回归检测得到分类结果和边界框

[65]

得到分类结果和边界框的方法如下：对于每一个区域，分类和回归检测网络将输出7个可能所存在的目标的位置与种类。其中，目标种类共有A个，即输出对应A种目标的可能性，与训练集的设置有关；位置参数包含3个数据，包括目标边界框的中心位置坐标、宽、高；

[66]

步骤7、计算损失函数与更新参数

[67]

根据第6步输出的目标的位置与种类与训练集中标定的所需识别目标的位置与种类计算损失函数，此步骤只在训练过程中进行。损失函数的计算公式如下所示：

[68]

[69]

其中，100为区域数量，7为每个区域需要预测的建议框和最终生成的编辑框数量，i为区域编号，j为建议框和边界框编号，loss为误差值，obj表示存在目标，noobj表示不存在目标。x和y分别为建议框和边界框中心的横坐标和纵坐标的预测值，w和h分别为建议框和边界框的宽和高的预测值，C为建议框和边界框是否包含目标的预测值，包含A个值，分别对应A类目标的可能性，为对应的标注值，和分别表示目标落入和未落入区域i的第j个建议框和边界框内。然后，根据损失函数计算结果，使用包含动量的随机梯度下降法对权重进行更新。

[70]

重复步骤3-7直到误差满足要求或迭代次数达到设定的上限。

[71]

步骤8、使用测试集进行测试

[72]

使用步骤7训练完成的目标检测网络对验证集中的图像进行处理，获取目标检测的准确度和所需时间，以及最终目标检测结果图。

[73]

下面结合图2对本发明的网络结构做进一步说明

[74]

1、网络层数设置

[75]

本发明所使用的神经网络分两部分，第一部分为特征提取网络，由5个稠密块组成，共包含25层卷积神经网络。第二部分为特征融合及回归检测网络，包含8层卷积神经网络及1层全卷积网络。

[76]

2、稠密块设置

[77]

特征提取网络部分所使用稠密块设置如下：

[78]

(1)稠密块1包含2层卷积神经网络，第一层所使用卷积核数量为64，大小为1*1，步长为1；第二层所使用卷积核数量为64，大小为3*3，步长为1。稠密块1使用1次。

[79]

(2)稠密块2包含2层卷积神经网络，第一层所使用卷积核数量为64，大小为3*3，步长为1；第二层所使用卷积核数量为64，大小为1*1，步长为1。稠密块2使用1次。

[80]

(3)稠密块3包含2层卷积神经网络，第一层所使用卷积核数量为64，大小为1*1，步长为1；第二层所使用卷积核数量为64，大小为3*3，步长为1。稠密块3使用2次。

[81]

(4)稠密块4包含2层卷积神经网络，第一层所使用卷积核数量为256，大小为1*1，步长为1；第二层所使用卷积核数量为256，大小为3*3，步长为1。稠密块4使用4次。

[82]

(5)稠密块5包含3层卷积神经网络，第一层所使用卷积核数量为1024，大小为1*1，步长为1；第二层所使用卷积核数量为1024，大小为3*3，步长为1；第三层所使用卷积核数量为1024，大小为1*1，步长为1。稠密块5使用2次。

[83]

3、特征融合设置。

[84]

特征融合所使用的3组特征图来源于特征提取网络的第9层、第18层和第25层结果。然后将生成特征图通过卷积与上采样与浅层特征图结合。所得结果通过3*3卷积层与1*1卷积层进行进一步处理，然后将所得的三组新特征图进行特征融合。

[85]

下面结合图3对本发明的仿真效果做进一步说明。

[86]

1.仿真条件：

[87]

本发明的仿真所使用待检测的图像大小为480×640，包含行人和自行车。

[88]

2.仿真结果与分析：

[89]

图3是本发明的结果图，其中，图3(a)为待检测的图；图3(b)为提取得到的特征图；图2(c)为检测结果图。

[90]

使用稠密网络对图3(a)进行特征提取得到一系列特征图，因中间过程的特征图太多，只抽取其中两幅，即图3(b)和图3(c)。其中，图3(b)为较浅层网络提取得到的特征图，图像尺寸较大，含有的细节信息多，语义信息少；图3(c)为较深层网络提取得到的特征图，图像尺寸较小，含有的细节信息少，语义信息多。

[91]

对特征图进行融合及回归检测之后，可以得到行人和自行车的位置，将其在原图上进行标注，即得到最终的结果图3(c)。

[92]

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

[1]

An infrared plane target detection method based on feature fusion and dense connection, comprising: constructing an infrared image dataset containing a target to be recognized, calibrating the position and kind of said target to be recognized in the infrared image dataset, and obtaining an original known label image; dividing the infrared image dataset into a training set and a verification set; performing image enhancement preprocessing on images in the training set and performing feature extraction and feature fusion, obtaining a classification result and a bounding box through a regression network; performing a loss function calculation on the classification result and the bounding box with the original known label image, and updating parameter values of convolutional neural network (CNN); repeating iteration update on the CNN parameters until the error is small enough or the number of iterations reaches a set upper limit; and processing images in the verification set through the trained CNN parameters to obtain accuracy and required time for target detection, and a final target detection result graph.

[2]

一种基于特征融合和稠密连接的红外面目标检测方法，其特征在于，该方法通过如下步骤实现：

步骤1，构建包含所需识别目标的红外图像数据集，在所述红外图像数据集中标定所需识别目标的位置与种类，获得原有已知的标签图像；

步骤2，将所述红外图像数据集分为训练集和验证集两部分；

步骤3，对训练集中的图像进行图像增强的预处理；

步骤5，重复步骤3、4对卷积神经网络参数进行迭代更新，直至误差足够小或迭代次数达到设定的上限为止；

步骤6，通过训练完成的卷积神经网络参数对验证集中的图像进行处理，获取目标检测的准确度和所需时间，以及最终目标检测结果图。

根据权利要求1所述的基于特征融合和稠密连接的红外面目标检测方法，其特征在于，所述步骤4中对预处理后的图像进行特征提取和特征融合，并通过回归网络获得分类结果和边界框，具体通过以下步骤实现：

步骤401，在所述训练集中随机抽取固定数量的图像，对每一幅图像划分10×10的区域；

步骤402，将所述步骤401划分后的图像输入稠密连接网络进行特征提取；

步骤403，对提取的特征图进行特征融合，获得融合的特征图；

步骤404，对所述融合的特征图中每一个区域产生固定数量的建议框；

步骤405，将所述融合的特征图和建议框送入回归网络进行分类和边界框回归，并使用非极大值抑制方法去除冗余，获得分类结果和边界框。

根据权利要求2所述的基于特征融合和稠密连接的红外面目标检测方法，其特征在于，所述步骤402中稠密连接网络的计算方法如公式：

d_l＝H_l([d₀,d₁,...,d_l-1])

根据权利要求3所述的基于特征融合和稠密连接的红外面目标检测方法，其特征在于，所述步骤403中对提取的特征图进行特征融合是将所提取到的不同尺度的特征图通过池化方法进行直接融合。

根据权利要求4所述的基于特征融合和稠密连接的红外面目标检测方法，其特征在于，所述步骤403中对提取的特征图进行特征融合，具体通过以下步骤实现：

步骤4031，将第一组特征图F₁通过池化运算，转换成新的较小的特征图，再与第二组特征图F₂融合得到新的特征图F₂’；

步骤4032，将新的特征图F₂’通过池化运算，再与第三组特征图F₃融合得到新的特征图F₃’；

步骤4033，用新的特征图F₂’和F₃’代替第二组特征图F₂和第三组特征图F₃进入回归网络。

根据权利要求5所述的基于特征融合和稠密连接的红外面目标检测方法，其特征在于，所述步骤405中将所述融合的特征图和建议框送入回归网络进行分类和边界框回归，并使用非极大值抑制方法去除冗余，获得分类结果和边界框，具体通过以下步骤实现：

步骤4051，将特征图划分为10×10个区域，输入回归检测网络；

步骤4052，非极大值抑制方法是对于获得的同一种类边界框，使用以下公式计算其交并比：

根据权利要求6所述的基于特征融合和稠密连接的红外面目标检测方法，其特征在于，所述步骤4中将所述分类结果和边界框与原有已知的标签图像进行损失函数计算，使用包含动量的随机梯度下降法在卷积神经网络中对预测误差进行反向传播，并更新卷积神经网络的参数值，具体通过以下步骤实现：

步骤402，根据损失函数计算结果，使用包含动量的随机梯度下降法对权重进行更新。

根据权利要求1-7任意一项所述的基于特征融合和稠密连接的红外面目标检测方法，其特征在于，所述步骤3的预处理为通过随机旋转、镜像、翻转、缩放、平移、尺度变换、对比度变换、噪声扰动和颜色变化扩充训练集。

CPC - классификация

G G0 G06 G06F G06F1 G06F18 G06F18/G06F18/2 G06F18/21 G06F18/214 G06F18/217 G06F18/24 G06F18/241 G06F18/2413 G06F18/25 G06F18/253 G06N G06N3 G06N3/G06N3/0 G06N3/04 G06N3/045 G06N3/08 G06N3/084 G06V G06V1 G06V10 G06V10/G06V10/2 G06V10/25 G06V10/8 G06V10/82

IPC - классификация

G G0 G06 G06K G06K9 G06K9/G06K9/4 G06K9/46