摘要

目前在孪生网络追踪器中使用的主干网络相对较浅，例AlexNet。本文研究如何利用更深和更广的卷积神经网络来增强跟踪的鲁棒性和准确性。使用改进后的网络直接替换，例如ResNet和Inception，并没有带来改进。主要原因是 1）神经元感受野的大幅增加导致特征可辨性和定位精度降低; 2）卷积的网络 padding 在学习中引起位置偏差。

为了解决这些问题，我们提出了新的残差模块，以消除padding的负面影响，并进一步设计使用这些模块的新架构，具有受控的感受野大小和步长。设计的架构应用于SiamFC+和SiamRPN时保证了实时跟踪速度。实验表明，仅仅由于所提出的网络架构，我们的 SiamFC+和 SiamRPN+分别在OTB-15，VOT-16和VOT-17数据集上，相对于原始版本获得了高达9.8％/ 5.7％（AUC），23.3％/ 8.8％（EAO）和 24.4％/ 25.0％（EAO）的相对改进。

1.介绍

1.1 相关研究

RPN详细介绍

SiamFC详细介绍

SiamRPN详细介绍

1.2 本文介绍

我们用更深更广的网络取代VGG，Inception和ResNet等网络的浅层主干网。但这种简单的替换并没有带来太大的改进，甚至可能在网络深度或宽度增加时导致性能大幅下降，如图1所示。

图1：成功图的AUC与网络深度和宽度。宽度width是指模块中分支的数量。通过对 OTB-13 的评估，使用具有不同主干网络的 SiamFC获得了这个结果。

分析了Siamese网络架构，确定神经元的感受野大小、卷积步长、padding是影响跟踪精度的三个重要因素。感受野确定用于计算特征的图像区域。较大的感受野提供更大的图像上下文，而较小的感受野可能无法捕捉目标对象的结构。stride影响定位精度，同时控制输出特征图的大小。padding在模型训练中引起潜在的位置偏差。

在本文中，我们通过设计新的残差模块和网络架构来解决这些问题。首先，我们提出了一组基于“瓶颈（bottleneck）”的残差块的内部裁剪（cropping-inside residual，CIR）单元。CIR单元在块内部裁剪出受填充 padding 影响的特征（即接收填充信号的特征），从而防止卷积滤波器学习位置偏差。其次，我们通过堆叠 CIR单元设计了两种网络架构，即更深和更宽的网络。为了提高定位精度，我们设计了特定的步幅和感受野。

2. 性能退化分析

性能下降可以直接归因于网络结构，是图1实验中唯一改变的设置。因此，我们首先确定这些网络架构之间的结构差异。如表格2所示，除了深度和宽度之外，网络中还有其他几个不同的内部网络因素，包括步幅（STR），填充（PAD），最后一层神经元的感受野（RF）和输出特征尺寸（OFS）。

我们修改了 AlexNet，VGG，Inception 和 ResNet 的结构，并揭示了内部因素的影响。如表格1所示，Siamese更喜欢中级特征（步幅4或8），这些特征在物体定位方面比高级特征更精确（步幅≥16）。对于感受野（RF），最佳感受野大小覆盖输入样本图像z的约60％~80％。对于输出特征尺寸，观察到小尺寸（OFS≤3）不利于跟踪精度。

表1：AlexNet，VGG 10，Inception -22和ResNet-33上的网络内部因素分析。数字①- ⑩代表不同的版本，其中修改卷积内核大小，下采样层和填充以显示趋势。由于空间有限，补充材料中给出了有关修改的详细信息。

1.为了更好地显示趋势，我们将±0表示为网络的原始RF大小。+和-表示相对于原来的增大和减小尺寸。Max（127）表示最大有效RF，其与示例图像的大小相同，即127x127像素。

2.对于Inception网络，其RF大小位于一个范围内。这里我们只列出理论上的最大尺寸，与ResNet对齐进行比较。

表2：不同网络的内部因素：最后一层网络中的神经元的感受野（RF），步幅（STR），输出特征尺寸（OFS），填充（PAD）和宽度（W）。由于Inception在一个块中包含多个分支，因此其 RF位于一个范围内。

Siamese 框架将中心裁剪的图像对作为训练数据传入，其中目标对象始终存在于图像中心。如果输出单元的感受野延伸超出图像边界（受padding影响），网络模型学习位置产生偏差。图2给出了测试阶段中这种学习偏差的可视化示例。它显示当目标对象移动到图像边界时，其峰值不能精确指示目标的位置。这是由跟踪器漂移引起的常见情况。

3. 方针

1.将步幅设定为4或8。

2.最佳感受野大小覆盖输入样本图像 z的约 60％~80％

3.在设计网络架构时，应将stride，感受野和输出特征尺寸视为一个整体。这三个因素并不是彼此独立的。如果一个改变，其他人将相应改变。将它们结合在一起可以帮助设计的网络在Siamese框架中提取更多的有判别力的特征。

4.对于全卷积的Siamese网络，删除padding操作重要。padding引起的位置偏差会降低孪生跟踪器的准确性和鲁棒性。

4. 内部裁剪残差（CIR）单元

残差单元（residual unit）是网络架构设计中的关键模块。它由3个堆叠的卷积层和绕过它们的快捷连接（shortcut connection）组成，如图3（a）所示。这三层是1×1，3×3和1×1个卷积，其中1×1层负责减少或恢复尺寸，使3×3层成为具有较小输入和输出尺寸的瓶颈（bottleneck）。此瓶颈卷积包括大小为1的zero-padding，以确保在添加之前兼容的输出大小。

图3：拟议的内部残余单位。（a）和（b）是残差单元和下采样单元（down sampling unit），而（a‘）和（b’）是我们提出的单位。（c）和（d）是建议的宽残差单元。灰色箭头表示便于信息传播的shortcut paths，而蓝色方框则突出显示与原始单位的差异。字母'p'和's'分别表示padding大小和步长。

CIR单元。如第3节所述，padding可能会在Siamese框架中引入位置偏差。为此我们增加残差单位进行裁剪操作，如图 3（a’）所示。裁剪操作会删除计算受zero-padding信号影响的特征，消除了残差单元中的padding影响特征。

下采样CIR（CIR-D）单元。它用于减少特征图的空间大小，同时使特征通道的数量加倍。下采样单元包含padding操作，如图 3（b）所示。因此，我们还修改其结构以消除由padding引起的负面影响。如图 3（b’）所示，我们在瓶颈层和shortcut connection中将卷积步幅从2改为1。插入裁剪以移除受padding影响的特征。最后，使用最大池化层来执行特征图的空间下采样。这些修改的关键思想是确保仅删除受填充影响的特征，同时保持内部块结构不变。

CIR-Inception和CIR-NeXt单元。根据Inception和ResNeXt，通过多个特征变换扩展CIR单元，生成CIR-Inception和CIR-NeXt 模块，如图 3（c-d）所示。具体来说，在CIR-Inception结构中，我们在shortcut connection中插入一个1x1卷积，并合并两个分支的特征。在CIR-ResNeXt中，我们将瓶颈层拆分为32个转换分支，并通过添加进行聚合。此外，对于CIR-Inception 和CIR-NeXt的下采样单元，修改与CIR-D（图 3（b’））中的修改相同，其中卷积步幅减小并且增加了最大池化层。

5. 网络架构 Network Architectures

通过堆叠上述CIR单元，我们构建了更深更宽的网络。首先确定stride，步幅8用于构建3级网络，而步幅4用于构建2级网络。然后，我们堆叠CIR单位。我们控制每个阶段的unit数量和下采样unit的位置。目标是确保最后一层神经元的感受野大小位于有效范围内，即样本图像大小的 60％-80％。另外，当网络深度增加时，感受野可能超过该范围。因此，我们将步幅减半，以控制感受野。

更深的网络。我们使用CIR和CIR-D单元构建更深的网络。这些结构类似于ResNet，但具有不同的stride，感受野和结构单元（building blocks）。

CIResNet-22有3个部分（stride=8），22个卷积层。除了第一个7×7卷积，其他都是CIR单位。在7×7卷积之后进行裁剪操作（大小为2）以移除受padding影响的特征。前两个阶段的特征下采样是通过原来ResNet的卷积和步幅2的最大池化来执行的。在第三阶段，通过所提出的CIR-D单元执行下采样，该CIR-D单元位于该阶段的第一个块（共四个）。当feature map大小被下采样时，卷积核的数量加倍以增加特征可辨别性。输出feature map大小是5×5，每个feature感受野的相应大小93×93。

构建CIResNet-43时进一步将网络深度增加到43层，设计为2个阶段，在 CIResNet-43的第二阶段，有14个块，其中第四个块具有用于特征下采样的 CIR-D 单元。

更宽的网络。我们分别使用CIR-Inception和CIR-NeXt单元构建两种类型的宽网络体系结构。我们提供一个22层结构作为示例。正如表3所示，CIResInception-22和CIResNeXt-22具有与CIResNet-22类似的结构。但是通过多分支构建块，网络宽度分别增加了2倍和32倍。而且，由于多分支级联，在CIResInception-22中感受野大小变得多样化（即13~93）。

表3：用于连体跟踪器的设计骨干网络的架构。CIResNet-43中CIR-D位于'conv3'阶段的第四个块中，其他网络用于第一个块。

6. 实验

我们首先将我们更深更宽的网络与SiamFC和SiamRPN中的主干AlexNet进行比较。正如表4中所示，在OTB-13，OTB-15和VOT-17数据集上，我们提出的网络优于基线AlexNet。特别是，配备CIResIncep-22网络的 SiamFC 分别在OTB-2013和VOT-1上获得了比原始AlexNet高9.5％（AUC）和14.3％（EAO）的相对改进。同时，配备CIResNet-22的SiamRPN实现了4.4％和23.3％的相对改善。这验证了我们设计的体系结构解决了图1中所示的性能下降问题。此外，它还显示了我们提出的CIR单元对于连体网络的有效性。

学习更多编程知识，请关注我的公众号：

代码的路