咚咚

V1

2022/02/21阅读:95主题:默认主题

SoCo:对象级对比学习目标检测预训练算法(NeurIPS2021)

Aligning Pretraining for Detection via Object-Level Contrastive Learning

论文地址: https://arxiv.org/pdf/2106.02637.pdf

代码地址: https://github.com/hologerry/SoCo


推荐大家关注咚咚学AI公众号,会更新最新Cv论文和AI基本知识

摘要

引入主题 图像级对比表示学习已被证明是一种非常有效的迁移学习模型
现存问题 然而,如果我们对某个下游任务感兴趣,那么迁移学习的这种一般性就牺牲了特异性。我们认为这可能是次优的,,因此提倡一个设计原则,鼓励在自我监督的借口任务和下游任务之间的对齐
论文方法 设计了一种针对目标检测任务的预训练方法。在以下三个方面实现了对齐:1)通过选择性搜索目标边框引入对象级表示作为对象proposals;2)预训练网络体系结构采用了与检测管道相同的专用模块(如FPN);3)预训练具有对象级平移不变性和尺度不变性等目标检测特性

Method

Data Preprocessing

生成目标边框

  1. 使用selective search算法为每一幅原始图像生成一组目标proposals。

  2. 我们将每个对象建议表示为一个边框b = {x,y,w,h},其中(x,y)表示包围盒中心的坐标,w和h分别表示相应的宽度和高度。

  3. 在每次训练迭代中,我们为每个输入图像随机选择K个proposals

构建视图

SoCo使用V1、V2和V3三种视图。

  1. 将输入的图像大小调整为224 ×224,得到V1。

  2. 在V1上应用一个尺度范围为[0.5,1.0]的随机裁剪,生成V2。然后将V2调整为与V1相同的大小,并删除V2之外的对象proposals。

  3. 接下来,将V2下采样到一个固定大小(例如112 ×112)以生成V3

以上操作过程中,图像中的边框会根据图像的裁剪和大小进行相应变换(如上图所示)。最后,每个视图进行随机且独立数据增强的。

边框抖动

为了进一步鼓励不同视图中对象proposals的尺度和位置的差异,在生成的proposals上采用了边框抖动策略,来作为对象级的数据增强。

Object-Level Contrastive Learning

SoCo的目标是将预训练与目标检测结合起来。

论文使用具有代表性的框架Mask R-CNN和特征金字塔网络(FPN)来演示关键设计原则。

对齐主要是将预训练体系结构与目标检测体系结构进行对齐,并将目标层平移不变性、尺度不变性等重要的目标检测属性集成到预训练体系结构中。

将预训练体系结构与目标检测相匹配

  1. 在Mask R-CNN之后,使用带有FPN的主干作为图像级特征提取器 。FPN的输出表示为 , stride为{4,8,16,32}。这里我们不使用P6,因为它的分辨率很低。

  2. 使用RoIAlign从相应的scale level中提取前景特征。将 像素范围内的面积对象建议分别赋给{P2,P3,P4,P5}

  3. 为了进一步的架构对齐,我们在训练前额外引入R-CNN头

    从图像视图V中提取边框b的对象级特征表示h为:

是proposal 在视图中的V1对象级表示, , 在视图V2,V3中的表示。它们分别使用在线网络和目标网络进行提取

我们使用BYOL[3]学习对比表示。在线网络附加projector gθ和predictor qθ,以获得潜在嵌入。gθ和qθ都是双层mlp。为了避免trivial solutions.,目标网络只附加projector gξ,没有predictor。

最后的特征输出为

第i个对象方案的对比损失定义为

那么可以得到每幅图像的总体损失函数为:

其中K是对象proposals的数量。

Experiments

分类:

人工智能

标签:

图像处理

作者介绍

咚咚
V1

哈尔滨工业大学-计算机视觉