摘要

引入主题	在自然语言处理领域的BERT之后，提出了一个masked图像建模任务来预训练一个视觉Transformer
论文方法	每个图像在预训练中具有两个视图，即图像patches（例如16×16像素）和视觉tokens。首先将原始图像生成tokens。然后随机mask一些图像patches并将其送入骨干Transformer。预训练目标是根据损坏的图像patches恢复原始的视觉tokens。在预训练后，通过在预训练得到的编码器上附加任务层进行下游任务直接微调模型参数

Method

上图显示了整体算法流程

给定一个输入图像x，将其分割为N个图像patches ( )，并将其tokenize为N个视觉tokens( )
随机掩码约40%的图像patch，其中掩码位置记为
用一个可学习的嵌入来替换masked patches
然后将损坏的图像patches (两部分组成)馈入标准的Transformer模块
将最后一层隐向量视为输入patches的编码表示。对于每个掩码位置，使用一个softmax分类器来预测对应的视觉tokens 。训练前的目标是最大化正确视觉tokens 的对数似然

其中，mask操作的伪代码如下

tokenizer操作

与自然语言类似，将图像表示为离散token序列。

具体来说，将图片标记化为，其中词汇包含离散的token索引。

通过离散变分自编码器（DVAE）学习image tokenizer。在视觉token学习过程中，有两个模块，即tokenizer 和Decoder ,需要先在语料上训练出一个tokenizer和一个decoder

进行了图像分类和语义分割的实验。也提出了各种消融研究用于训练前和分析模型学习的表征