ECCV2022 Oral | SeqTR：一个简单而通用的 Visual Grounding网络

1.论文和代码地址

论文地址：https://arxiv.org/abs/2203.16265^[1]

代码地址：https://github.com/sean-zhuh/seqtr^[2]

2.Motivation

原有的visual grounding(视觉定位任务),对各类细分子任务，如指向性目标检测(REC),指向性目标跟踪(RES)等，需要大量专业知识来设计不同的网络结构和损失函数。而随着Pix2Seq论文的提出，发现对于视觉问题的求解也可以转化为对于文本信息的求解。本文作者基于此思想，将visual grounding任务转为点预测问题，具体而言，目标框位置，需要进行分割的实例位置等信息可以转化为一组离散坐标序列，从而可以对问题进行简化和统一建模。

3.方法

3.1视觉信息转化

论文的核心就是将视觉信息进行量化与序列化，因此下面具体讲解作者如何是进行信息转化的。

这是原图坐标与新图的坐标转化公式，新图宽高都重新划分为M个单位，w与h是原图的宽和高，先求出在原图的相对位置，然后进行相对位置的转化求出新的坐标。

针对RES任务，作者原创性地提出了掩模轮廓采样方案(mask contour sampling scheme),通过采样一定数量的物体边缘的轮廓点来确定整个物体的形状与位置，从而不再需要对每个pixel进行处理和判断。作者提出两种方案，一种是基于中心点的采样方式，另一种是均匀采样方式，就是在掩模轮廓顶部顺时针均匀采样 N 个点。通过比对，发现均匀采样的效果更好。具体效果比对如上图所示。

在完成视觉信息重构为序列信息后，就可以进行文本与序列信息的匹配训练。在模型训练完成后，输入文本信息，模型生成对应的序列信息，然后序列信息再与图像位置信息相对应，从而可以生成对应的检测框或者分割物体，即完成了任务。具体效果如下图所示：

3.2整体架构

Language Encoder：为了证明SeqTR的有效性，模型仅使用一层双向GRU而不是预训练好的BERT作为语言编码器

Visual Encoder：通过下采样提取多尺度特征，然后展平生成视觉特征来输入特征融合模块。值得一提的是，不同于以往的RES模型，SeqTR只需要最粗糙的视觉特征来进行分割，因为不再需要进行像素级别的判断，只需要对数个轮廓点进行预测即可。

Fusion：首先通过最大池化来生成语言特征，然后通过哈达玛积来将视觉特征与语言特征进行融合，具体公式如下图所示，其中σ是tanh函数。

Transformer and Predictor：SeqTR采用了很标准的Transformer结构还有预测器。Transformer 的隐藏维度设置为 256，前馈网络（FFN）中的扩展率为 4，编码器和解码器层数分别为 6 和 3。同时也对解码器的输入序列使用可学习的位置编码，最后，使用 ReLU 实现了一个三层线性层预测器来预测坐标标记以及一个最终的 softmax 函数，用于对每个离散坐标标记进行分类。

Inference：以自回归的方式进行坐标推理，预测的序列将被重新组装以形成边界框或分割掩码。

4.实验

SeqTR在REC和RES任务在各个数据集上取得的效果，如下图所示，可以看到均取得STOA。

REC任务：

RES任务：

参数量对比：

与其他预训练模型参数量与性能对比，如下图所示，可以看到，在参数量最小的情况下几乎各指标均取得了最优的效果：

消融实验：

在语言特征的构建以及权重分配方面的消融实验，如下图所示，可以看到采用max pooling来构建语言特征的效果比较好：

对与RES任务，采样点的数量，不同的采样策略，以及随机打乱顺序的不同比例，这些操作在不同数据集上的效果如下图所示，可以看到均匀采样的效果基本总是高于中心采样，并且采样点的数量也并不似越高越好，随机打乱顺序的比例对不同数据集而言也不尽相同。

效果可视化：

Transformer解码器中归一化交叉注意力图的可视化：

SeqTR 在 RefCOCO 数据集的验证集上的掩码预测示例：

5.总结

本文将视觉定位任务重新定义为点预测问题，并提出了一个创新的通用网络，称为 SeqTR。基于标准 Transformer 架构和交叉熵损失函数，SeqTR 将不同的视觉定位任务统一在一种范式下。实验结果表明，SeqTR 可以很好地将语言查询定位到相应的区域，这表明一种简单而通用的视觉定位方法确实是可行的。

参考资料

[1]

https://arxiv.org/abs/2203.16265: https://arxiv.org/abs/2203.16265

[2]

https://github.com/sean-zhuh/seqtr: https://github.com/sean-zhuh/seqtr