900字范文 > Fully Convolutional Networks for Semantic Segmentation

Fully Convolutional Networks for Semantic Segmentation

时间：2020-05-18 19:47:54

fcn提出了一个新颖的架构，目前来看，这也几乎是目前所有的语义分割问题的架构，encoder-decoder架构。

1.introduction

from coarse to fine inference is to make a prediction at every pixel,从粗推理到精细推理的下一步是对每个像素进行预测。

Semantic segmentation faces an inherent tension betweensemantics and location: global information resolveswhat while local information resolves where. 语义分割面临语义和位置的内在张力：全局信息在解决什么，局部信息在解决什么，深度特征层次在local-to-global金字塔上联合编码位置和语义信息。我们定义了一种新颖的skip结构来联合deep，coarse，semantic信息和shallow，fine，appearance信息。

2.fully convolutional networks

Locations in higher layers correspond to the locationsin the image they are path-connected to, which are calledtheir receptive fields.较高层中的位置对应于他们路径连接到图像中的位置，成为他们的感受野。convnets建立在平移不变性上，它们的基本组件（卷积、池化和激活函数）在局部输入区域上运行，并且仅依赖于相对空间坐标。

2.1 adapting classifiers for dense prediction

全连接层具有固定的维度并丢弃了空间坐标，让位置信息消失了，只保留语义信息，因此将全连接操作更换为卷积操作可以同时保留位置信息及语义信息，达到给每个像素分类的目的。这些全连接层也可以视为具有覆盖其整个输入区域内核的卷积，这样做会将他们转换为完全卷积的网络，该网络接受任何大小的输入和输出分类图。用fc产生最后一层输出和cnn是等效的，但是cnn要快的多。全卷积的输出是相对输入大小减少一个因子，该因子等于输出单元的感受野的像素步长。

fc输出的是1x1x1000的一个向量，1000维经过softmax之后，概率最高的就是预测的类别，如果换成全卷积输出的就是热力图，但是也是1000张图，每个像素点都有1000类的预测，取每个像素点预测的最大值。

2.2 shift-and-stitch is filter rarefaction

这块后续也并没有采用这个方法，而是通过上采样做。

2.3 upsampling is backwards strided convolution

to connect coarse outputs to dense pixels is interpolation.将粗略输出到密集像素的方法是插值。此处是用反卷积效果好一点。

2.4两种训练方法，在mmseg中应该对whole和slice两种方式

3.segmentation architecture

这块的输入多以一张原图和一张mask这种形式，这也是最为普遍的一种训练集

3.1from classifier to dense fcn

丢掉了最终的分类层，并将所有的fc层转成卷积层，我们附加一个通道维度为21的1x1卷积来预测每个粗略输出位置的每个voc类（包括背景）的分数，然后是一个反卷积层，将粗略输出双线性上采样到像素密集输出。

3.2 combining whatandwhere

相对非常简单的上下融合，其实fpn也有类似的效果，但是在文字检测上一般是fpn出来的层做融合，目标检测上一般是分而治之，语义分割将pred还原到label在做预测。