谷歌新论文：用于视频的新型Transformer结构---MTV

论文题目：Multiview Transformers for Video Recognition

论文地址：https://arxiv.org/pdf/2201.04288.pdf

虽然Transformer架构最近已发展到最先进的水平，但它们还不能准确的对不同时空进行建模。为此，提出了用于视频识别的多视图Transformer(MTV)
模型由多个独立的编码器组成，用来表示输入视频的不同维度视图（不同大小卷积块进行patch embedding），并通过横向连接来融合视图间的信息，如下图所示，详细见下文解析

Method

本论文提出了一个多视图token算法

通过对同一个输入视频进行V次不同卷积核的token提取，得到，其中0表示第0层
这V个从大到小的视图中，较小的视图是指通过使用较小的三维卷积核生成patch embedding，所以token数量较多，较大的视图反之，如Figure· 1所示
直观地，较小的视图可以捕获小细粒度的细节，而较大的视图捕获场景中缓慢变化的语义信息
每个视图都捕获不同的信息级别时，不同视图使用不同Transformer编码器，它们之间有横向连接，以融合信息，如下一节所述

分别对每个视图使用Transformer编码器处理，并对不同视图的中间特征进行信息融合

考虑以下三种交叉视图融合方法。注意，隐藏维度在不同的视图之间可能不同

使用中间bottleneck tokens来融合相邻视图i和i+1的信息

初始化bottleneck tokens，，其中是第(i+1)个视图中bottleneck tokens的数量，远小于N，如图2(b)所示，其中B=1
第i+1个视图中的bottleneck tokens经过自注意力层融合了大量特征信息
再通过线性投影，cat到第i视图的输入中，经过自注意力融合来自i+1视图中的bottleneck tokens信息
顺序地在所有相邻视图对之间执行融合，从tokens数量最大的视图开始，然后按照标记数量递减的顺序进行融合。直观地说，这允许拥有较少tokens的视图从所有前面的视图聚合细粒度信息

论文认为信息融合不一定在不同视图的同一层进行信息融合

融合可以发生在视图i的层和视图j的层之间，其中

通过最终的全局编码器将每个视图的token进行聚合，如图1所示，有效地融合了所有视图的信息

推荐大家关注咚咚学AI公众号，会更新最新Cv论文和AI基本知识