900字范文 > 《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation

《论文阅读》Bi-directional Relationship Inferring Network for Referring Image Segmentation

时间：2022-02-19 12:40:30

留个笔记自用

Bi-directional Relationship Inferring Network for Referring Image Segmentation

做什么

Referring image segmentation参考图像分割

简单来说就是给定一张图片和一句话，根据这句话来对图片进行符合文字语义的实例分割

做了什么

构建一个视觉引导的语言注意模块来学习每个视觉区域的自适应语言环境，再构造一个语言引导的视觉注意模块利用所学习的语言语境来引导视觉特征的任意两个位置之间的空间相关性的学习。简单来说就是双向构造互相影响

怎么做

整体结构存在着两个输入，即源图像和源文本，两个输入先经过特征提取模块获取对应的特征，图像部分使用DeepLab ResNet-101v2来提取

而文字部分使用LSTM来提取

整体结构分为三个主要部分，Vision-Guided Linguistic Attention视觉引导的语言注意部分，Language-Guided Visual Attention语言引导的视觉注意部分，Gated Bi-directional Fusion门控双向融合部分

首先是Vision-Guided Linguistic Attention视觉引导的语言注意部分，这部分首先处理源文字序列，先采用LSTM提取它每个词的上下文内容ht，即LSTM在该单词t的输出，鉴于一句话中每个词的重要度完全不同，如上图中的

Person是主要人物，重要性需要高于其他单词，这里引入了VLAM语言注意模块

这里的vi是视觉特征Ii、LSTM最后隐层输出hT、空间特征si的concatenate。这里的Ii维度为CI，即视觉特征图的通道数，hT维度为1000，这是LSTM设置的，si维度为8。式中的Wvi是维度为1000×(CI+1000+8)的训练参数，即将vi映射到ht的同一维，然后这里的αi,t就可以表示为第t个单词对第i个特征区域的重要性。

这样就可以计算第i个特征区域的语言注意力编码特征

之后是第二个模块，Language-Guided Visual Attention，语言引导的视觉注意模块，背景信息对于参考图像分割至关重要，为了模拟不同区域之间的上下文关系

这里的vj跟上面的vi同样，Wv2是维度为1000×(CI+1000+8)，这里也可以理解为将特征v映射成向量各式，Wc维度为500×1000，Wv~2是维度为500×1000，Wλ是维度为1000的参数，N是特征区域的个数，最后得到的λi,j可以理解为第i个区域和第j个区域的依赖关系或者说相似性

得到了λi,j后就可以更新视觉特征了，这里的Wv3和Wv4都是训练参数，也就是同理映射方法，[a,b]方法即对a和b的concatenate

以上的两种引导注意力的方法在整个结构中统称为Bi-directional cross-modal attention module（BCAM），整体结构👇

最后是最后一个模块Gated Bi-directional Fusion门控双向融合部分GBFM

这部分的输入正是上面两个引导部分得到的最终特征vi维度为(CI+1000+8)，第一步就是将BCAM的结果经过ASPP

ASPPatrous spatial pyramid pooling空洞空间卷积池化金字塔，简单来说就是在同一个输入的特征图上，使用多个不同dilated的空洞卷积空洞卷积介绍

最后将所有结果concatenate和1×1卷积调整通道后得到最后的结果，很明显这个的作用是不同采样率的空洞卷积可以有效捕获多尺度信息，将ASPP得到的三个结果分别定义为f3、f4、f5，这三个分别对应着deeplab即图像特征提取网络中的rest3、res4、res5的特征结果

接下来就是将这三个进行融合，这里采用了两种方法进行融合，有自下而上的方法bottom-up和自上而下top-down的方法

这里的G是

比如上图计算的就是G4,5