咚咚

V1

2022/01/21阅读:64主题:默认主题

RePre-通过重建输入图像来提高基于对比自监督的性能(基于Transformer编码器)

RePre: Improving Self-Supervised Vision Transformer with Reconstructive Pre-training

单位: 北邮, UT Austin, 商汤, 悉尼大学

论文地址:https://arxiv.org/pdf/2201.06857.pdf


当前基于对比学习的自监督算法收到很大的关注

但基于对比学习的自监督算法多以实例级对比损失进行表征学习的,缺乏局部级别的loss

所以本文通过重建输入图像进行对比计算局部级别损失来提高自监督下游任务性能


  1. 模型使用Transformer编码器

  2. 解码器使用轻量级的卷积层

  3. 编码器和解码器之间使用多层级特征multi-hierarchy features进行连接

Experience

  1. 首先研究了图像识别任务的线性评价
  2. 将预先训练的模型转化为下游目标检测和语义分割任务
  3. 对RePre的关键部位进行详细的消融研究

Linear Evaluation

基于不同类型的Transformer结构的自监督模型,使用RePre具有较高的精度

Transfer to downstream tasks

Ablation Study

RePre的两个关键组件是多层特性和重构解码器

Ablation on multi-hierarchy features

使用“Single”功能(最后一层的输出)只带来了微小的改进。论文认为这种效率低下的原因在于最后一层的高语义特征与低语义像素目标之间的差异。

Ablation on fusion layer in reconstruction decoder

分析了卷积可以在不破坏上下文语义信息的情况下增强细粒度的局部空间相关性,使用相同的基本Transformer层作为骨干来替换解码器融合层中的3×3 Conv (Conv)来进行验证。


推荐大家关注咚咚学AI公众号,会更新最新Cv论文和AI基本知识

分类:

人工智能

标签:

图像处理

作者介绍

咚咚
V1

哈尔滨工业大学-计算机视觉