咚咚
2022/02/21阅读:95主题:默认主题
SoCo:对象级对比学习目标检测预训练算法(NeurIPS2021)
Aligning Pretraining for Detection via Object-Level Contrastive Learning

论文地址: https://arxiv.org/pdf/2106.02637.pdf
代码地址: https://github.com/hologerry/SoCo
推荐大家关注咚咚学AI公众号,会更新最新Cv论文和AI基本知识
摘要
引入主题 | 图像级对比表示学习已被证明是一种非常有效的迁移学习模型 |
---|---|
现存问题 | 然而,如果我们对某个下游任务感兴趣,那么迁移学习的这种一般性就牺牲了特异性。我们认为这可能是次优的,,因此提倡一个设计原则,鼓励在自我监督的借口任务和下游任务之间的对齐 |
论文方法 | 设计了一种针对目标检测任务的预训练方法。在以下三个方面实现了对齐:1)通过选择性搜索目标边框引入对象级表示作为对象proposals;2)预训练网络体系结构采用了与检测管道相同的专用模块(如FPN);3)预训练具有对象级平移不变性和尺度不变性等目标检测特性 |
Method

Data Preprocessing
生成目标边框
-
使用selective search算法为每一幅原始图像生成一组目标proposals。
-
我们将每个对象建议表示为一个边框b = {x,y,w,h},其中(x,y)表示包围盒中心的坐标,w和h分别表示相应的宽度和高度。
-
在每次训练迭代中,我们为每个输入图像随机选择K个proposals
构建视图
SoCo使用V1、V2和V3三种视图。
-
将输入的图像大小调整为224 ×224,得到V1。
-
在V1上应用一个尺度范围为[0.5,1.0]的随机裁剪,生成V2。然后将V2调整为与V1相同的大小,并删除V2之外的对象proposals。
-
接下来,将V2下采样到一个固定大小(例如112 ×112)以生成V3
以上操作过程中,图像中的边框会根据图像的裁剪和大小进行相应变换(如上图所示)。最后,每个视图进行随机且独立数据增强的。
边框抖动
为了进一步鼓励不同视图中对象proposals的尺度和位置的差异,在生成的proposals上采用了边框抖动策略,来作为对象级的数据增强。
Object-Level Contrastive Learning
SoCo的目标是将预训练与目标检测结合起来。
论文使用具有代表性的框架Mask R-CNN和特征金字塔网络(FPN)来演示关键设计原则。
对齐主要是将预训练体系结构与目标检测体系结构进行对齐,并将目标层平移不变性、尺度不变性等重要的目标检测属性集成到预训练体系结构中。
将预训练体系结构与目标检测相匹配。
-
在Mask R-CNN之后,使用带有FPN的主干作为图像级特征提取器 。FPN的输出表示为 , stride为{4,8,16,32}。这里我们不使用P6,因为它的分辨率很低。
-
使用RoIAlign从相应的scale level中提取前景特征。将 像素范围内的面积对象建议分别赋给{P2,P3,P4,P5}
-
为了进一步的架构对齐,我们在训练前额外引入R-CNN头 。
从图像视图V中提取边框b的对象级特征表示h为:
设 是proposal 在视图中的V1对象级表示, , 是 在视图V2,V3中的表示。它们分别使用在线网络和目标网络进行提取
我们使用BYOL[3]学习对比表示。在线网络附加projector gθ和predictor qθ,以获得潜在嵌入。gθ和qθ都是双层mlp。为了避免trivial solutions.,目标网络只附加projector gξ,没有predictor。
最后的特征输出为
第i个对象方案的对比损失定义为
那么可以得到每幅图像的总体损失函数为:
其中K是对象proposals的数量。
Experiments






作者介绍
咚咚
哈尔滨工业大学-计算机视觉