900字范文,内容丰富有趣,生活中的好帮手!
900字范文 > CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

时间:2024-07-04 22:33:35

相关推荐

CLIP4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval

文章目录

前置知识摘要动机Related workVisual Representation Learning from Text Supervision网络结构训练策略参考文献

Paper: /pdf/2104.08860.pdf

Code: /ArrowLuo/CLIP4Clip

Authors: 西南交大,微软亚研院, 微软STCA

前置知识

zero-shot learning: 零次学习,就是希望我们的模型能够对其从没见过的类别进行分类,让机器具有推理能力,实现真正的智能。其中零次(Zero-shot)是指对于要分类的类别对象,一次也不学习。

ZSL要做的事,举个例子(如下图),告诉模型这是马、老虎、熊猫等,也告诉模型每种动物类别的属性描述(马鬃、条纹、黑白等),然后给模型一张斑马的图片(模型未见过)以及斑马这一类别的属性描述,让模型识别出这是一个斑马,这样的过程其实就是让模型模仿人类,利用过去的知识(视觉特征-描述-类别之间的匹配对),来推理出新对象的具体形态(新对象的描述–>该有的视觉特征–>对未见过图像进行判断)。因此要实现ZSL需要解决两个问题:第一个问题是获取合适的类别描述 ;第二个问题是建立一个合适的分类模型;具体可参见:知乎

摘要

视频文本检索在多模态研究中起着至关重要的作用,在许多现实网络应用中得到了广泛的应用。CLIP(Contrastive Language-Image Pretraining)是一种图像-语言预训练模型,它已经证明了从网络收集的图像-文本数据集学习视觉概念的能力。这篇文章提出了一个CLIP4ClipCLIP For video Clip retrieval)模型用来将CLIP模型中的知识以一种端到端的形式迁移到视频-语言检索中。最值得一看的是本篇文章通过实证研究调查了几个问题:1)图像特征对于视频-文本检索是否足够?2)对预训练好的CLIP在大规模视频-文本数据集中再进行训练会怎样影响检索结果;3)建模视频帧之间时间依赖的实际机制是什么?4)视频-文本检索任务中模型的超参数敏感性问题;实验结果上,从CLIP迁移而来的CLIP4clip模型再MSR-VTT, MSVC, LSMDC, ActivityNet, DiDeMo等数据集上表现SOTA。

动机

随着每天在线上传视频的增加,视频文本检索正成为人们有效寻找相关视频的新需求。除了实际的网络应用,视频-文本检索对多模态视觉语言理解也是一个基础的研究任务。按照视频-文本检索模型输入的不同,可以将其分为两类:raw video(像素级)和video feature(特征级)

通常来讲,预训练模型是特征级。因为他们是在像Howto100M这样的大规模视频-文本数据集上训练的。这类方法的输入是通过现成的冻结的视频特征提取器生成的视频特征。如果输入是原始视频,它会使预训练非常慢或不可行。但即便如此,受益于大规模的数据集,预训练模型在视频-文本检索领域也展现了显著的性能增益。

像素级方法直接用原始视频作为输入来训练模型,早期的方法大多属于像素级。该方法在对应的文本下联合学习了视频特征提取器,与此相反特征级方法是使用现成的特征提取器,并且特征级方法的性能高度依赖于恰当的特征提取器,在学习过程中也不能对特征提取器的参数进行更新。

正是由于特征级方法的限制以及预训练模型对视频-文本检索领域的有效性,最近有些工作直接将预训练模型在 raw video 上进行训练,但是这样就存在了一个很大的挑战:原始视频的输入是密集的,计算量巨大。一个自然而言的方法就是对密集视频帧进行稀疏采样,ClipBERT【1】就是一个基于稀疏采样策略的端到端预训练模型,在每个训练步中对一个视频只采用一个或几个短片段,它的结论是端到端训练有利于低级特征提取,并且少量稀疏采样的片段就足以解决视频文本检索任务。这篇文章的目标不是为视频检索任务设计一个新模型,而是重点研究如何从CLIP预训练模型中迁移知识到视频文本检索领域

这篇文章提出的CLIP4Clip模型在CLIP的基础上,设计了一个相似度计算模块,研究三种相似度计算方法(无参类型,序列类型,密集类型)的效果。这篇工作的贡献主要有以下几点:

基于预训练的CLIP设计了三种相似度计算方式在另一个视觉语言数据集上对CLIP进一步做了训练,学习到了更好的检索空间。

从本文的实验中,作者还得出了以下结论:

使用一张图像对视频编码用于视频文本检索,是远远不够的对CLIP4Clip模型在大规模视频文本数据集上再进行预训练是有必要且可以大幅度提升性能的,尤其对于zero-shot预测。对于使用预训练的CLIP模型的建议:在小数据集上,最好不要引入新参数,并且在视频帧上采用平均池化(无参类型)相似度计算机制效果更好;在大数据集上,最好采用一些像自注意层这样的新参数,来学习时间依赖关系。对于将CLIP模型应用于视频文本检索领域的超参数设置,也进行了仔细的研究

Related work

Visual Representation Learning from Text Supervision

视觉表征学习是一项具有挑战性的任务,已被监督或自我监督的方法广泛研究。相对于来自大规模未标记数据的语义监督,从文本表示来监督学习视觉表示是一个新兴的研究课题,受益于从互联网上收集的大规模视觉和语言对。CLIP的显著成功证明了通过大规模图像-文本对的预训练从语言监督中学习SOTA图像表示的能力。预训练的模型可以学习图像的细粒度视觉概念,并迁移到检索任务作为知识。

视频文本检索:之前的视频文本检索工作主要从跨模态学习的融合基础进行探索,近年来预训练模型占据了视频检索任务排行榜,在zero-shot 检索和微调检索任务中都有不俗表现。

网络结构

网络结构见下图,结构比较清晰。Video Encoder和Text Encoder都是使用CLIP模型中的参数,将一段视频的所有帧输入至CLIP的video encoder中提取逐帧的表征,然后将该段视频的文本描述输入至CLIP的Text Encoder中提取文本表征,最后计算二者的相似度得分。

训练策略

损失函数包括从文本到视频和从视频到文本的损失

思考:文本到视频检索任务的目标是:给定一段文本表述,对所有的视频片段计算相似度得分然后排序选最高;视频到文本检索任务是:给定一段视频,对所有的文本描述计算相似度得分然后排序选最高;如果给一段文字描述(如:闯红灯),从一个巨长的视频数据中(某十字路口一天的监控视频)找到闯红灯的那一段视频,这样的任务应该是:query-based video localization

参考文献

【1】Jie Lei, Linjie Li, Luowei Zhou, Zhe Gan, Tamara L. Berg, Mohit Bansal, and Jingjing Liu. . Less is more: Clipbert for video-and-language learningvia sparse sampling. In CVPR.

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。