咚咚

V1

2022/01/27阅读:138主题:默认主题

谷歌新论文:用于视频的新型Transformer结构---MTV

谷歌新论文:用于视频的新型Transformer结构---MTV

论文题目:Multiview Transformers for Video Recognition

论文地址:https://arxiv.org/pdf/2201.04288.pdf

  1. 虽然Transformer架构最近已发展到最先进的水平,但它们还不能准确的对不同时空进行建模。为此,提出了用于视频识别的多视图Transformer(MTV)
  2. 模型由多个独立的编码器组成,用来表示输入视频的不同维度视图(不同大小卷积块进行patch embedding),并通过横向连接来融合视图间的信息,如下图所示,详细见下文解析

Method

preliminaries

  1. 输出视频数据为 ,T表示视频帧数

  2. ViViT算法通过三维卷积操作提取N个不重叠的时空方块tubelets进行patch embedding,那么得到

  3. 这些 通过线性投影算子 (三维卷积,卷积核大小为 得到token,

  4. 再添加一个学习token 进行类别学习,以及一个位置编码

    得到

  5. 后续通过多头注意力MSA和MLP生成不同层 的序列token

  6. 最后对其中的可学习token 进行线性投影 得到C个类别输出

Multiview tokenization

本论文提出了一个多视图token算法

  1. 通过对同一个输入视频进行V次不同卷积核的token提取,得到 ,其中0表示第0层
  2. 这V个从大到小的视图中,较小的视图是指通过使用较小的三维卷积核生成patch embedding,所以token数量较多,较大的视图反之,如Figure· 1所示
  3. 直观地,较小的视图可以捕获小细粒度的细节,而较大的视图捕获场景中缓慢变化的语义信息
  4. 每个视图都捕获不同的信息级别时,不同视图使用不同Transformer编码器,它们之间有横向连接,以融合信息,如下一节所述

Multiview transformer

分别对每个视图使用Transformer编码器处理,并对不同视图的中间特征进行信息融合

Multiview encoder

  1. 编码器内的不同视图的Transformer层都遵循与Vaswani原始Transformer相同的设计
  2. 不同视图的Transformer只处理当前视图的tokens,有效减小计算量

Cross-view fusion

考虑以下三种交叉视图融合方法。注意,隐藏维度 在不同的视图之间可能不同

Cross-view attention (CVA)

  1. 顺序地融合两个相邻视图i和i+1之间的一对信息

  2. 为了更新来自较大视图 的tokens,计算自注意力,查询queries是 ,键k和值v是 (来自较小视图的tokens)

  3. 由于在两个视图之间隐藏维度可能不同,所以首先将键和值投射到相同的维度,如下所示

Bottleneck tokens

使用中间bottleneck tokens来融合相邻视图i和i+1的信息

  1. 初始化bottleneck tokens, ,其中 是第(i+1)个视图中bottleneck tokens的数量,远小于N,如图2(b)所示,其中B=1
  2. 第i+1个视图中的bottleneck tokens经过自注意力层融合了大量特征信息
  3. 再通过线性投影,cat到第i视图的输入中,经过自注意力融合来自i+1视图中的bottleneck tokens信息
  4. 顺序地在所有相邻视图对之间执行融合,从tokens数量最大的视图开始,然后按照标记数量递减的顺序进行融合。直观地说,这允许拥有较少tokens的视图从所有前面的视图聚合细粒度信息

MLP fusion

  1. 如上图所示,将视图i+1的tokens, 与视图i的token进行concatenated。然后输入到第i视图中的MLP块
  2. 在相邻视图之间重复这个过程

Fusion locations

论文认为信息融合不一定在不同视图的同一层进行信息融合

融合可以发生在视图i的 层和视图j的 层之间,其中

Global encoder

通过最终的全局编码器将每个视图的token进行聚合,如图1所示,有效地融合了所有视图的信息

  1. 从每个视图中提取分类token, ,并使用另一个Transformer编码器进一步处理它们
  2. 最后从所有视图中收集信息,映射到C个类别输出

Experiments

Ablation study

Comparison to the state-of-the-art


推荐大家关注咚咚学AI公众号,会更新最新Cv论文和AI基本知识

分类:

人工智能

标签:

图像处理

作者介绍

咚咚
V1

哈尔滨工业大学-计算机视觉