咚咚
V1
2022/02/12阅读:55主题:默认主题
微软的自监督视觉预训练模型:BEIT
BEIT: BERT Pre-Training of Image Transformers
论文提出了一个基于masked图像建模任务的预训练模型
推荐大家关注咚咚学AI公众号,会更新最新Cv论文和AI基本知识
论文地址:https://arxiv.org/pdf/2106.08254.pdf
代码地址:https://aka.ms/beit

摘要
引入主题 | 在自然语言处理领域的BERT之后,提出了一个masked图像建模任务来预训练一个视觉Transformer |
---|---|
论文方法 | 每个图像在预训练中具有两个视图,即图像patches(例如16×16像素)和视觉tokens。首先将原始图像生成tokens。然后随机mask一些图像patches并将其送入骨干Transformer。预训练目标是根据损坏的图像patches恢复原始的视觉tokens。在预训练后,通过在预训练得到的编码器上附加任务层进行下游任务直接微调模型参数 |
Method

上图显示了整体算法流程
-
给定一个输入图像x,将其分割为N个图像patches ( ),并将其tokenize为N个视觉tokens( ) -
随机掩码约40%的图像patch,其中掩码位置记为 -
用一个可学习的嵌入 来替换masked patches -
然后将损坏的图像patches (两部分组成)馈入标准的Transformer模块 -
将最后一层隐向量 视为输入patches的编码表示。对于每个掩码位置 ,使用一个softmax分类器来预测对应的视觉tokens 。训练前的目标是最大化正确视觉tokens 的对数似然
其中,mask操作的伪代码如下

tokenizer操作
与自然语言类似,将图像表示为离散token序列。
具体来说,将图片 标记化为 ,其中词汇 包含离散的token索引。
通过离散变分自编码器(DVAE)学习image tokenizer。在视觉token学习过程中,有两个模块,即tokenizer 和Decoder ,需要先在语料上训练出一个tokenizer和一个decoder
-
tokenizer:据视觉码本(即词汇表)将图像像素x映射为离散的tokens z。
-
Decoder:学习基于token z重建输入图像x。重建目标可以写成
Experiments
进行了图像分类和语义分割的实验。也提出了各种消融研究用于训练前和分析模型学习的表征




作者介绍
咚咚
V1
哈尔滨工业大学-计算机视觉