900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > Visual Question Answering with Textual Representations for Images 论文笔记

Visual Question Answering with Textual Representations for Images 论文笔记

时间:2018-11-05 21:13:06

相关推荐

Visual Question Answering with Textual Representations for Images 论文笔记

Visual Question Answering with Textual Representations for Images 论文笔记

一、Abstract二、引言三、方法3.1 Language-only 数据3.1.1 Questions and Answers3.1.2 Image Description3.1.3 Synthetic Data3.2 VQA中的数据增强3.2.1 Hypernym and Hyponym Replacement3.2.2 Color Inversion3.2.3 Adversarial Replacement3.2.4 Counterfactual Samples3.3 语言中的数据增强四、实验4.1 实验步骤4.2 图像描述的比较4.3 与深度视觉特征的比较4.4 合成样本的使用五、Limitations and Conclusion

写在前面

分享一篇Workshop短文,有一些启发性的工作,奈何无源码~论文地址:Visual Question Answering with Textual Representations for Images代码地址:暂无收录于 ICCV Workshop

一、Abstract

这篇文章的开头值得借鉴一下,提出疑问句:我们距离采用文本表示来理解图片还有多远?点明本文主旨,采用文本特征来表示图像,即 研究了文本表示对于VQA特定上下文图像理解的有效性。

二、引言

一直以来都是采用BUTP的特征用于VQA的标准视觉输入,但是随着Transform语言模型的兴起,大多数工作转向预训练了。所以这就导致一个问题,这些基于深度视觉特征的方法从图片中难以捕捉丰富的语义内容。因此,本文研究基于文本化的区分性表示作为另一种可选的方式。

本文探索了图像文本化表示和视觉特征表示的效率,那么如何进行图像文本化呢,所利用到两个数据集,COCO Captions以及Locialized Narratives。但是这里也留下了坑,如何自动产生文本描述,超出了本文的范畴,🐮。

三、方法

模型的输入由问题和图像的详细描述组成,然后通过一个Transform language-only模型,其输出之后再喂给一个多标签分类器来产生最终的答案。另外还使用数据增强技术来增加训练集的尺度和分布。

3.1 Language-only 数据

主要有三方面的数据:

问题和答案来源于标准的VQA数据集;图像内容的文本描述表示;利用数据增强技术获取的合成数据。

3.1.1 Questions and Answers

VQA-CP和VQA 2.数据集

3.1.2 Image Description

COCO Captions + Localized Narratives。具体来说,字幕是通过询问标注员来获得场景的重要部分的描述,而Localized Narrativess包含了整个图像的次级描述,例如COCO Captions中一些可能的微小目标。

3.1.3 Synthetic Data

使用的数据增强主要是针对VQA和Language的增强。

3.2 VQA中的数据增强

目的是强制模型关注输入中的重要部分。主要有4种技术:上位词或下位词替换;颜色反转;对抗替换;反事实样本。

3.2.1 Hypernym and Hyponym Replacement

解析一下上位词的概念,即某个名词属于一个大类下面,例如COCO数据集80个小类属于20个大类。这20个大类就是上位词,80个小类就是下位词。这里的代替指的是用大类或者小类词代替原来的答案词。

3.2.2 Color Inversion

采用另一种颜色单词来代替描述中的颜色词,并相应地改变答案。

3.2.3 Adversarial Replacement

对于yes/no问题,利用adversarial words的名字来更换当前目标词汇,如果当前词汇在问题中,那么就将Yes改为No,反之不改变。其中adversarial words来自于Glove词向量最相近的欧几里得距离。

3.2.4 Counterfactual Samples

目的旨在修改问题或图像以使得问题-答案对不相关。具体来说,利用Grad-CAM识别出问题或者描述中的关键词,然后除去仅仅通过观察关键词就能回答出的答案。因此,能够得到关键词被masked掉的问题或者描述以及剩下的答案。

3.3 语言中的数据增强

由于本文中的模型只依赖语言模态,因此可以直接利用NLP中的数据增强方法,即 EDA;回译;上下文词替换/嵌入。注意对于EDA来说,包含4种操作:同义词替换,随机插入,随机交换以及随机删除。

四、实验

4.1 实验步骤

采用large RoBERTa作为Transform语言模型,分类器采用2层的感知机以及Swish激活函数(?),损失采用Softmax cross entropy。模型的输入包含:整个问题序列,描述,五条字幕。

4.2 图像描述的比较

比较4种输入:仅问题、问题和1/5的随机选择的字幕、问题和描述、问题+叙述+5字幕,在VQA-CPv2测试集上的结果:

注意比较Captions和Narrative的结果,这证实了VQA数据集包含了一些可能与图像整体内容相关的问题,而不是细节。换句话说,人们询问的大多问题基本上都是关于图像的突出部分。

4.3 与深度视觉特征的比较

在VQA-CP v2和VQA 2.0数据集上进行比较,为了保证公平:并未包含解决bias的即插即用的方法。但是有个问题,VQA-CP 数据集本身就是针对VQA-cpV2数据集的,这样你在bias数据集上比较是不是不太妥当?结果如下:

4.4 合成样本的使用

VQA-CP v2 测试集,结果如下表所示:回译的方法效果很好,原因可能是回译仅仅是数据增强而不改变原意,需要注意的是:1、在同一时刻,需要训练问题数据集有多样性;2、问题-描述-答案三元组语义上需要有正确的关联。基于这种效果,又补充了一组实验,看看能否增强基于深度视觉特征的方法效果,结果是仍能增强。

五、Limitations and Conclusion

指出了对比仍然是不公平的,因为采用了额外的数据。但是本文给出了另外一种视角针对VQA任务,即 采用解释性的文本表示作为一种baseline模型。然后实验部分给出了一个主要发现:采用回译增强能够进一步激发VQA模型的性能,包括基于文本或者深度视觉特征。因此,未来如果回译的技术进步了,说不定能带来新的收益。

写在后面

本文提出了一种新的特征来处理VQA问题,即纯文本输入,这对于打破Transform的垄断有一定的帮助,可惜源码没有放出来。另外,作者的实验提供了一个trick,回译技术。总的来说,论文的想法比较新奇,但是性能确实差点,跟不上主流的方法。另外是在VQA-CP数据集上的实验,总有些用错力的感觉。但是以文本为特征作为VQA模型的输入,这一创新点还是可以深挖的。

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。