Transform-based image feature iterative prediction method

04-08-2023 дата публикации
Номер:
CN116543169A
Контакты:
Номер заявки: 26-10-20231398.3
Дата заявки: 17-03-2023

一种基于Transformer的图像特征迭代预测方法

附图说明

[0017]

图1是本发明的工作流程示意图;

[0018]

图2是本发明的有效性分析结果示例图。

技术领域

[0001]

本发明涉及深度学习及自注意变换网络(Transformer)领域,尤其涉及一种基于Transformer的图像特征迭代预测方法。

具体实施方式

[0019]

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。

[0020]

本发明提供了一种基于Transformer的图像特征迭代预测方法,如图1所示为相邻两轮迭代预测过程,左侧第一轮预测过程中,Transformer编码器下上方分别为输入与输出图像特征,二者皆由二维图像特征转换而来。其中空白方格代表待预测特征位置,输入下方为掩膜,有色方框代表已知特征位置,空白方框代表待预测特征位置。

[0021]

在第一轮中,掩膜只开放部分预测位置,如图1中掩膜部分白色方框为开放位置,红色叉号框表示关闭的预测位置;第二轮中,掩膜将上一轮中关闭位置打开相邻位置继续预测,以此类推,直到所有未知位置预测完毕。

[0022]

在掩膜自增策略中,除了原有标注已知区域与待预测区域位置掩膜M(掩膜中0标注未知区域,1标注已知区域)外,引入预测掩膜Mp用于标注预测位置(使用0标注不预测位置,1标注预测位置)。预测前,使用全1卷积核对初始位置掩膜M1进行卷积,当卷积结果大于0时,将该位置标注为1,标注结果即为首轮预测掩膜进入下一轮时,将前轮预测掩膜赋值给位置掩膜M2继续预测操作,以此类推直到预测掩膜所有位置均为1为止。此过程即如下公式:

[0023]

[0024]

其中,表示卷积核视野内的掩膜矩阵;m′表示卷积结果,其将由卷积核标定的邻近区域计算数值.我们通过这种方式引入图像邻近区域强相关性先验,利用图像相邻像素强相关的特性。在整个掩膜自增过程中,每轮掩膜自增均在已知区域临边区域进行扩张。实施中默认采用大小为9×9的卷积核,观察卷积位置四周临近4像素区域,若存在已知区域则该位置被标注为待预测区域,迭代过程中,预测掩膜使用该卷积核进行卷积计算,重新标定待预测区域,用于Transformer特征预测使用,直至所有位置预测完毕。

[0025]

为验证此种基于Transformer的图像特征迭代预测方法的有效性,本发明在图像内容预测问题上进行实验验证。实验选取细粒度花类数据集作为样本,共计8189张图像,其中7000张用于训练,1189张用于测试,每张图像均等比缩放至256×256分辨率。对每张图像样本随机裁剪面积,余留原长宽大小的正方形图像部分作为输入,裁剪前图像作为标签。验证实验中,使用常用的Encoder-Bottleneck-Decoder架构,并将Bottleneck中CNN网络结构替换为Transformer结构,且在其中采用本方法。模型使用重构损失与对抗损失进行训练,设置批大小为16,学习率α=0.0001。测试时,使用选取峰值信噪比(PSNR)、结构相似度指标(SSIM)、Frechet感知距离(FID)三种指标,其中PSNR与SSIM数值越大代表模型性能越好,FID指标数值越小代表模型性能更优。在此有效性分析中,首先剥离掩膜自增策略而直接使用Transformer单次对未知区域特征并行预测;然后通过调整掩膜自增策略中使用全1卷积核尺寸调整需迭代的次数,分析不同迭代次数情况下的性能差异。具体为:

[0026]

(1)w/o MG:不使用掩膜自增策略,令Transformer单次并行预测完未知区域特征;

[0027]

(2)2iters:调整全1卷积核为17×17,此时最多需要2轮迭代完成所有未知区域特征预测;

[0028]

(3)4iters:调整全1卷积核为9×9,此时最多需要4轮迭代完成所有未知区域特征预测,该配置为默认方案;

[0029]

(4)8iters:调整全1卷积核为5×5,此时最多需要8轮迭代完成所有未知区域特征预测。

[0030]

表1与图2为性能评估结果,从中可以看出,不使用掩膜自增迭代特征预测(w/oMG)的情况下各项指标均表现较差。在使用不同次数迭代预测中,适中的迭代次数(4iters)可以有效提升各项指标,过多(8iters)或过少(2iters)的迭代次数均会导致指标降低。这是由于Transformer并行特征预测能力跟预测特征数量息息相关,过大将降低预测准确性,过低将可能使前轮次产生的预测错误在后几轮中得以扩大。需要说明的是,本次验证使用4头8层的Transformer结构,在此配置下,4次迭代的结果相较更好,如若更换其他配置则需根据Transformer能力做适当调整。实验视觉结果示例如图2所示,第一列虚线框表示已知区域,GT代表真实图像。由图中可以看出,不采用掩膜自增迭代特征预测的情况(w/o MG)下,预测结果容易产生过度与不合理的结果(见图中第一列第一行中下方花朵过度延伸)。过大的迭代次数(8iters)也可能产生预测结果不合理的情况,而适中的迭代次数(如4次)则可以进行合理的图像合成。

[0031]

表1图像特征迭代预测方法有效性分析定量实验结果

[0032]

指标w/o MG迭代2次迭代4次迭代8次
PSNR15.1115.0915.4915.21
SSIM0.50800.50950.52080.5089
FID34.3231.5330.4330.79

[0033]

本发明可在基于Transformer的图像修复问题得以应用。为验证方法有效性,实验在图像内容预测问题上给出消融实验,并展示不同迭代次数对结果的影响,实验结果显示本方法可有效提升预测准确性。

[0034]

以上所述仅为本发明的较佳实施例,仅用于说明本发明的技术方案,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等,均包含在本发明的保护范围内。

背景技术

[0002]

在图像处理问题上,图像特征预测是一项关键任务,传统的基于卷积神经网络(CNN)的图像特征预测方法具有很好的性能,但是在处理大尺寸图像时,需要使用更大的网络来提高性能,同时也存在需要对图像进行预处理的限制。

[0003]

最近,基于自注意力机制的Transformer模型被引入到图像处理领域,取得了一定的成功。Transformer使用自注意力机制来捕捉图像中的全局信息,这使得它能够更好地理解图像的结构和内容,同时也具有较好的可扩展性和灵活性。与传统的CNN相比,Transformer可以处理不同尺寸的图像,而无需预处理,从而具有更好的性能。

[0004]

在图像特征预测方面,Transformer已经被应用于许多任务,如图像分类、目标检测和分割等。例如,ViT模型(Vision Transformer)是一种基于Transformer的图像分类模型,它在ImageNet数据集上表现出色,与同等规模的CNN相比,能够实现更好的性能。另外,DETR模型(Detection Transformer)是一种使用Transformer进行目标检测的模型,它使用Transformer来预测对象的位置和类别,而不是使用传统的基于锚框的方法。这些模型表明,Transformer在图像特征预测方面具有很大的潜力。

[0005]

然而,在图像处理领域中,如面对大面积未知区域特征预测时,据少量已知信息较难准确的同时预测未知区域内容。

发明内容

[0006]

为了解决以上技术问题,本发明提供了一种基于Transformer的图像特征迭代预测方法,降低了大面积未知区域预测难度,进而提高预测准确性。该方法可在基于Transformer的图像修复问题得以应用。

[0007]

本发明的技术方案是:

[0008]

一种基于Transformer的图像特征迭代预测方法,在预测过程中,以迭代方式并行预测图像指定区域特征。

[0009]

进一步的,

[0010]

采用掩膜自增策略分散大面积待预测区域,迭代预测图像特征,将同时预测全部区域拆分为迭代递进预测过程,使得每次预测区域面积相对变小,且可利用前次预测内容作为本次预测依据。

[0011]

所述掩膜自增策略,指预测掩膜同时标定已知特征位置与待预测特征位置,其指定的待预测特征位置将根据迭代次数的增加逐步向外扩散,且每次扩展时仅与前次预测掩膜相关。

[0012]

掩膜自增策略将逐步打开未知区域预测位置并指定下一轮迭代预测位置,且预测范围可通过参数调控。

[0013]

再进一步的,

[0014]

采用卷积核标定的邻近区域计算每次扩散的位置,可引入图像邻近区域强相关性先验,利用图像相邻像素强相关的特性。

[0015]

在预测过程中,Transformer编码器被循环使用,根据预测掩膜指定的位置进行每一轮迭代预测。

[0016]

在预测掩膜的自增过程中,每次自增后,将使用Transformer编码器预测增加的待预测位置;将已预测的特征将作为下一轮预测的已知特征继续预测,可不断缩小预测范围。



The invention provides an image feature iterative prediction method based on Transform, which belongs to the field of self-attention transformation networks, and adopts a mask self-increasing strategy to disperse a large-area to-be-predicted region, iteratively predict image features, and divide the simultaneous prediction of all regions into an iterative progressive prediction process, so that the area of the region predicted each time is relatively reduced, and the prediction efficiency is improved. And the previous prediction content can be used as a current prediction basis. In this way, the prediction difficulty of the large-area unknown region is reduced, and then the prediction accuracy is improved.



0001.

1.一种基于Transformer的图像特征迭代预测方法,其特征在于,

在预测过程中,以迭代方式并行预测图像指定区域特征。

0002.

2.根据权利要求1所述的方法,其特征在于,

采用掩膜自增策略分散大面积待预测区域,迭代预测图像特征,将同时预测全部区域拆分为迭代递进预测过程,使得每次预测区域面积相对变小,且可利用前次预测内容作为本次预测依据。

0003.

3.根据权利要求2所述的方法,其特征在于,

所述掩膜自增策略,指预测掩膜同时标定已知特征位置与待预测特征位置,其指定的待预测特征位置将根据迭代次数的增加逐步向外扩散,且每次扩展时仅与前次预测掩膜相关。

0004.

4.根据权利要求2所述的方法,其特征在于,

掩膜自增策略将逐步打开未知区域预测位置并指定下一轮迭代预测位置,且预测范围可通过参数调控。

0005.

5.根据权利要求3或4所述的方法,其特征在于,

采用卷积核标定的邻近区域计算每次扩散的位置,引入图像邻近区域强相关性先验,利用图像相邻像素强相关的特性。

0006.

6.根据权利要求5所述的方法,其特征在于,

在预测过程中,Transformer编码器被循环使用,根据预测掩膜指定的位置进行每一轮迭代预测。

0007.

7.根据权利要求6所述的方法,其特征在于,

在预测掩膜的自增过程中,每次自增后,将使用Transformer编码器预测增加的待预测位置。

0008.

8.根据权利要求7所述的方法,其特征在于,

将已预测的特征将作为下一轮预测的已知特征继续预测,不断缩小预测范围。