900字范文 > ICCV | 基于关联语义注意力模型的图像修复

ICCV | 基于关联语义注意力模型的图像修复

时间：2021-07-07 23:56:20

作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译

论文引入

图像修复问题的关键是维持修复后图像的全局语义一致性以及破损区域的细节纹理合理性。近期关于图像修复问题的研究主要集中于通过使用空间注意力机制或利用原始图像的有效像素去预测缺失区域两种策略，这两种方法由于忽略破损区域的语义相关性和特征连续性，经常会产生模糊纹理或结构混乱的问题（如图 1）。

▲图1.现有图像修复算法比较

为了解决这一问题作者借鉴人工修复图像的过程提出了基于关联语义注意机制的图像修复模型，该模型不仅能修复不规则缺失图像而且能保证修复后图像的全局一致性。

模型介绍

基于关联语义注意机制的图像修复模型主要由两部分组成，首先图像经过一个粗略的修复网络（Rough Network），该网络基于 U-Net 架构。之后将 Rough Network 修复后的图像结合原破损图像作为更细致的修复网络（Refinement Network）的输入进行进一步的修复。最后作者通过 feature 鉴别器以及 patch 鉴别器与修复网络进行对抗，具体架构如图 2 所示。

▲图2. 模型架构

在 Refinement Network 中作者在编码过程和解码过程中分别对应嵌入了有关联的语义注意力层（CSA），该层是通过将破损区域内的前向临近像素块作为下一像素块的语义引导进行修复。

主要过程分为搜索和生成两部分（如图 3 所示），首先在已知区域的特征映射中搜索与破损区域的特征映射 M 最接近的像素块来初始化破损区域，其中采用互信息来衡量两像素块之间的相似度（如图 4 所示），具体操作是将中的像素块作为卷积核并应用于 M 上，从而计算出有最大互信息的像素块。

之后将作为主要引导，前向相邻块作为次要引导结合归一化后生成像素块，即：

由于第一个像素块没有前向相邻像素块，因此第一个像素块的信息完全来自于，之后迭代该过程 2~n 次从而修复破损区域。

▲图3. CSA层

▲图4. 互信息

作者在编码过程中嵌入了 CSA 层，为了能在解码时重建 M 作者定义了注意力映射矩阵 A，并在解卷积中复用该矩阵，整个过程的伪代码如图 5 所示。

▲图5. CSA伪算法

为了能适应 CSA 层的训练作者还提出了一致性损失，该损失调整了传统的感知损失，使用 VGG-16 作为预训练模型提取原始图像的高层特征信息，通过缩小经过 CSA 层之后的特征以及其对应的解卷积后的特征与原始图像的特征之间的 L2 距离来提高修复效果。一致性损失的定义如下：

为了能让模型适应于不规则区域的图像修复，作者还提出了一种新颖的特征鉴别器，特征鉴别器通过计算修复后图像和原始图像的特征映射来判断图像的真假，具体架构如图 6 所示。在特征鉴别器中作者采用了 VGG 网络作为预训练网络来提取图像特征，之后将提取后的特征再经过几层下采样来计算对抗损失。为了保证训练稳定作者也加入了 70*70的 patch 鉴别器作为辅助鉴别器。

▲图6. feature discriminator架构

实验结果

作者使用了 Places2，CelebA 以及 Paris StreetView 数据集进行实验，选取 Contextual Attention (CA)，Shift-net (SH)，Partial Conv (PC) 以及 Gated Conv (GV) 作为 baseline 进行比较。部分实验结果如图 7 所示，可以看出其他方法会产生或多或少的结构混乱或细节缺失问题，CSA 模型应用在不规则缺失图像修复上的效果也优于其他 baseline 模型。

▲图7. 修复效果比较