900字范文 > AAAI 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记

AAAI 《Regularizing Attention Networks for Anomaly Detection in Visual Question Answering》论文笔记

时间：2024-01-20 18:11:19

简介

本文是POSTECH和Kakao合作的一篇文章。

论文链接

动机

异常检测有助于提升模型的稳定性和可靠性，也就是鲁棒性，OOD问题也可以视为一种异常。但是，单模态的异常检测（MSP）并不能轻易的使用到VQA这种多模态任务中。作者提出了一种基于attention的方法（MAP），可以对VQA中的五种异常进行检测。

方法

首先，作者将VQA任务中的异常情况分为五种，也就是五个TASK。

TASK1~TASK3

这三个TASK很好理解，就是在输入的视觉信息VVV和语言信息QQQ中，至少有一类是来自于OOD的。TASK4

TASK4指的是：VVV和QQQ不相关。即：难以建立两个模态之间的关联。TASK5

TASK5指的是：通过VVV和QQQ得到的AAA是OOD的。即：答案AAA是未定义的。

结合下面这几种异常示例，可以便于理解。

传统的单模态异常检测方法，使用softmax\text{softmax}softmax判断模型输出的置信度，当置信度低于阈值时，则认为发生了异常。但是这种方法不适用于VQA任务，主要有两方面原因：① 置信度是基于p(a∣v,q)p(a|v,q)p(a∣v,q)计算的，对前四种TASK无法区分；② 进行多模态特征融合后，原本的OOD可能会消失，即：VVV和QQQ的OOD在进行特征融合后表现为ID。

所以，作者提出了基于attention的异常检测方法。本质是使用VVV中每个region和QQQ中每个word的加权attention计算score。为了防止attention对异常过于strong，作者添加了正则项，显式地finetune模型。