RePre: Improving Self-Supervised Vision Transformer with Reconstructive Pre-training

单位：北邮, UT Austin, 商汤, 悉尼大学

论文地址：https://arxiv.org/pdf/2201.06857.pdf

当前基于对比学习的自监督算法收到很大的关注

但基于对比学习的自监督算法多以实例级对比损失进行表征学习的，缺乏局部级别的loss

所以本文通过重建输入图像进行对比计算局部级别损失来提高自监督下游任务性能

Experience

Linear Evaluation

基于不同类型的Transformer结构的自监督模型，使用RePre具有较高的精度

RePre的两个关键组件是多层特性和重构解码器

使用“Single”功能(最后一层的输出)只带来了微小的改进。论文认为这种效率低下的原因在于最后一层的高语义特征与低语义像素目标之间的差异。

分析了卷积可以在不破坏上下文语义信息的情况下增强细粒度的局部空间相关性，使用相同的基本Transformer层作为骨干来替换解码器融合层中的3×3 Conv (Conv)来进行验证。

推荐大家关注咚咚学AI公众号，会更新最新Cv论文和AI基本知识