Aligning Pretraining for Detection via Object-Level Contrastive Learning

论文地址： https://arxiv.org/pdf/2106.02637.pdf

代码地址： https://github.com/hologerry/SoCo

推荐大家关注咚咚学AI公众号，会更新最新Cv论文和AI基本知识

摘要

引入主题	图像级对比表示学习已被证明是一种非常有效的迁移学习模型
现存问题	然而，如果我们对某个下游任务感兴趣，那么迁移学习的这种一般性就牺牲了特异性。我们认为这可能是次优的，，因此提倡一个设计原则，鼓励在自我监督的借口任务和下游任务之间的对齐
论文方法	设计了一种针对目标检测任务的预训练方法。在以下三个方面实现了对齐:1)通过选择性搜索目标边框引入对象级表示作为对象proposals;2)预训练网络体系结构采用了与检测管道相同的专用模块(如FPN);3)预训练具有对象级平移不变性和尺度不变性等目标检测特性

Method

生成目标边框

构建视图

SoCo使用V1、V2和V3三种视图。

以上操作过程中，图像中的边框会根据图像的裁剪和大小进行相应变换(如上图所示)。最后，每个视图进行随机且独立数据增强的。

边框抖动

为了进一步鼓励不同视图中对象proposals的尺度和位置的差异，在生成的proposals上采用了边框抖动策略，来作为对象级的数据增强。

SoCo的目标是将预训练与目标检测结合起来。

论文使用具有代表性的框架Mask R-CNN和特征金字塔网络(FPN)来演示关键设计原则。

对齐主要是将预训练体系结构与目标检测体系结构进行对齐，并将目标层平移不变性、尺度不变性等重要的目标检测属性集成到预训练体系结构中。

将预训练体系结构与目标检测相匹配。

在Mask R-CNN之后，使用带有FPN的主干作为图像级特征提取器。FPN的输出表示为， stride为{4,8,16,32}。这里我们不使用P6，因为它的分辨率很低。
使用RoIAlign从相应的scale level中提取前景特征。将像素范围内的面积对象建议分别赋给{P2,P3,P4,P5}
为了进一步的架构对齐，我们在训练前额外引入R-CNN头。

从图像视图V中提取边框b的对象级特征表示h为:

设是proposal 在视图中的V1对象级表示， , 是在视图V2,V3中的表示。它们分别使用在线网络和目标网络进行提取

我们使用BYOL[3]学习对比表示。在线网络附加projector gθ和predictor qθ，以获得潜在嵌入。gθ和qθ都是双层mlp。为了避免trivial solutions.，目标网络只附加projector gξ，没有predictor。

最后的特征输出为

第i个对象方案的对比损失定义为

那么可以得到每幅图像的总体损失函数为:

其中K是对象proposals的数量。