900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > Hierarchical Question-Image Co-Attention for Visual Question Answering

Hierarchical Question-Image Co-Attention for Visual Question Answering

时间:2021-11-07 16:07:16

相关推荐

Hierarchical Question-Image Co-Attention for Visual Question Answering

当前基于视觉注意的一些VQA方法主要关注:”where to look”或者 visual attention。本文认为基于问题的attention “which word to listen to ” 或者question attenion也相当重要。基于这个动机,文中提出一种多模注意模型:Co-attention + Question Hierarchy。

Co-attention:这个部分包括基于图像的attention和基于问题的attention。图像的表示有助于提取Question Attention,同理问题的表示也有助于视觉注意的提取。

Question Hierarchy:论文提出一种图像和问题协同注意的分层架构,主要分为三层。

a).word level。将每个单词表示成向量

b) phrase level 利用一个1D CNN提取特征

c) question level 利用RNN编码整个问题。

这篇论文的主要贡献:

1.提出co-attention mechanism 机制处理VQA任务,并且采用两种策略应用这中机制,parallel and alternating co-attention。

2.采用分层结构表示问题,因此构建的image-question co-attention maps分为三个层次:word level, phrase level and question level.

3.在phrase level,采用convolution-pooling strategy 自适应选择phrase size。

4.在VQA dataset和COCO-QA上进行测试。

论文整体框架:

Method介绍

一些符号表示,

Question Hierarchy

首先将问题映射到一个向量空间。为了得到phrase features,利用1-D CNN作用于Qw,在每个单词位置计算单词向量和卷积核的内积,卷积核有三个size,unigram, bigram and trigram,卷积后的输出

之后在三个卷积核卷积之后的结果中做一次max-pooling,

最后将得到的max-pooling结果送入到LSTM中提取特征。整个框架如图:

Co-Attention

论文中提出两种Co-attention机制:parallel co-attention和alternating co-attention。第一种是同时生成image和question attention,第二种交替生成attention。

Parallel Co-Attention。通过计算image和question特征之间的相似性,使image和question联系起来。给定image feature map V和question 表示Q,相关矩阵C:

将C当作是一种特征,可以预测image和question attention maps:

基于以上的attention weight,image和question attention map可以利用image features和question features计算,

Alternating Co-Attention。主要由三步组成:1.将问题总结成一个单向量q;2.基于q,集中注意于image;3.基于attended image feature,集中注意question。

在第一步,X=Q,g=0;第二步,X=V,g由第一步的attended question feature生成;最后,再次利用attended image feature 作为attended question feature的g

Encoding for Predicting Answers。论文中提取1000种最常出现的答案,并把VQA当成是1000-way分类问题。基于三种levels的co-attended image和question features预测答案。利用MLP编码attention features:

结果展示:

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。