顾道长生

V1

2022/07/23阅读:8主题:自定义主题1

(CVPR-2022)BiCnet

在 [30, 42] 之后,我们将视频网络分解为分别处理空间线索和时间关系。利用高效的 BiCnet 充分挖掘空间线索,我们构建了一个 Temporal Kernel Selection 块来联合建模短期和长期时间关系。由于不同尺度的时间关系对于不同的序列具有不同的重要性(如图 2 所示),TKS 以动态方式组合多尺度时间关系,即根据输入序列为不同的时间尺度分配不同的权重。

图2
图2

图 2:短期和长期的时间关系对于不同的序列具有不同的重要性。 (a) 部分遮挡的序列。需要长期的时间线索来减轻遮挡。 (b) 快速移动的行人序列。需要短期时间线索来模拟详细的运动模式。

特别的,TKS 以一系列连续帧特征图 作为输入,其中 是第 帧的特征图,并在 上执行三重操作,即 Partition、Select 和 Excite。

分区操作。由于不完善的人物检测算法,视频的相邻帧没有很好地对齐,这可能会使时间卷积在视频 reID [9] 上无效。在[34]之后,我们使用分区策略来缓解空间错位问题。具体来说,给定视频特征图 ,我们将每帧特征图均匀地划分为 个空间区域,并对每个划分的区域进行平均池化,构建区域级视频特征图

选择操作。如图4所示,给定 ,我们进行 条并行路径 ,其中 F (i) 是具有 内核大小的 1D 时间卷积 [30]。为了进一步提高效率,具有 内核的时间卷积被替换为具有 内核和扩张大小 的扩张卷积。选择操作的基本思想是使用来自所有时间路径的全局信息来确定分配给每个路径的权重。具体来说,我们首先通过元素求和融合所有路径的输出,然后执行全局平均池化以获得全局特征

其中 表示沿时间和空间维度的全局平均池化。之后根据全局嵌入 得到通道选择权重

其中 是为 生成 的变换参数。然后通过各种时间核上的选择权重获得聚合特征图

其中 是将 重塑为 以与 的大小兼容的重塑操作。

值得指出的是,与使用尺度权重提供粗融合相比,我们选择使用通道权重(等式 7)进行融合。这种设计产生了更细粒度的融合,可以调整每个特征通道。此外,权重是根据输入视频动态计算的。这对于不同序列可能具有不同主导时间尺度的 reID 至关重要。

激发操作。激发操作通过使用残差方案对 进行调节来调制输入特征图。最终的特征图 为: 。这里 是最近邻上采样器,它对 执行上采样以匹配 的空间分辨率。 TKS 块保持输入大小,因此可以插入到 BiCnet 的任何深度以提取有效的时空特征。

分类:

人工智能

标签:

深度学习

作者介绍

顾道长生
V1