FightingCV

V1

2022/11/17阅读:29主题:默认主题

SlowFast Network :用于计算机视觉视频理解的双模CNN

SlowFast Network :用于计算机视觉视频理解的双模CNN

论文地址:https://arxiv.org/pdf/1812.03982.pdf[1]

代码地址: https://github.com/facebookresearch/SlowFast[2]

动机

视频理解是指对视频片段进行分析解读。2019年Facebook AI Research提出了一种新颖的方法SlowFast networks用于视频理解任务。

通常的视频场景中由两部分不同的信息,一部分是在一定长度的帧率中不发生或者相对较慢发生变化的静态区域,还有一部分是视频场景中的变化频率较快的物体,简而言之,给定的视频场景中,环境不变,动作在变。

基于以上观察,作者提出了SlowFast network,Slow pathway 在低帧率上执行,用于捕捉空间语义——即环境信息;Fast pathway在高帧率上执行,在精细的时间分辨率上捕捉动作。

方法

SlowFast networks可以描述为两种不同帧率速度的单流框架,框架是受到生物学中的视网膜神经结结构的启发。视网膜神经结由两种不同的细胞构成,P-cell和M-cell,P-cell对细微的空间和颜色信息有很好的感知,M-cell对高频的时间变化进行处理,但是对空间和颜色细节基本没有敏感性。

所以SlowFast 设计了两条路径:Slow pathway、Fast pathway,分别对低时间频率和高时间频率的信息进行处理。两者通过横向连接融合到Slow pathway,最后进行预测。

Slow pathway:可以使用任何的卷积模型,使用较大的步长来进行采样。

Fast pathway:

使用高帧率,即小步长采样;α是Fast和Slow pathway之间的帧率比,α>1(在文中使用的是α=8)。

使用高分辨率:整个Fast pathway中不适用时间下采样(卷积和池化操作都不对时间下采样),直到分类之前的全局池化层;

通道低容量:使用显著下降的通道容量来实现SlowFast模型的精度,并且实现轻量化。

横向连接:使用单向连接将快速路径的特征融合到慢速路径中,最后对每个路径的输出执行全局平均池化,人后将两个池化特征向量连接起来作为全连接分类器层的输入。

横向连接需要对两个路径的输出进行大小匹配,Slow pathway 输出的特征值形状为{T,S^2,C};Fast pathway 输出的特征值形状为{αT,S^2,βC}。文章给出了三种横向连接大小匹配的方式:

  • reshape操作:{αT,S^2,βC}——>{T,S^2,αβC}

  • 直接下采样:{αT,S^2,βC}——>{T,S^2,βC}

  • 使用3D卷积:步长为α,卷积核为5*1*1,{αT,S^2,βC}——>{T,S^2,2βC}

实例化

实验

Action Classification

1. 数据集:

Kinetics-400、Kinetics-600、Charades

2. 实验结果

所有SlowFast的结果都比没有在ImageNet上预训练的模型结果要好,并且SlowFast是在低计算成本的基础上实现的。现有的很多工作对数据进行极其密集的采样,导致计算成本增加。相比之下,SlowFast不需要很多时间维度的采样,因为它具有高时间分辨率但轻量级的快速路径,所以每个时空视图的成本较低,且依旧保持准确度。

该图评估了Fast pathway带来的改进效果。可以看到Fast pathway能够以相对较低的成本持续提高Slow的性能。

Charades是具有更长活动范围的数据集。总体而言,SlowFast模型优于原来的工作,并且以比较低的成本实现了比较可观的收益。

3. 消融实验:

  • 从头开始训练 vs. 预训练

AVA Action Detection

1. detection 结构

detector的结构类似于Faster R-CNN,只对视频进行最小的修改。

使用SlowFast 网络作为主干,并且对SlowFast网络进行预训练,最后在ROI上运行

2. 数据集:AVA

3. 实验结果

总结

时间轴是一个特殊的维度。本文研究了一种对比沿该轴的速度的架构设计。它实现了视频动作分类和检测的最先进的准确性。

参考资料

[1]

https://arxiv.org/pdf/1812.03982.pdf: https://arxiv.org/pdf/1812.03982.pdf

[2]

https://github.com/facebookresearch/SlowFast: https://github.com/facebookresearch/SlowFast

分类:

人工智能

标签:

人工智能

作者介绍

FightingCV
V1

公众号 FightingCV