咚咚
V1
2022/02/21阅读:32主题:默认主题
UT-Austin&FAIR提出多重网格训练:加快视频数据训练速度并提高精度
A Multigrid Method for Efficiently Training Video Models

论文地址:http://arxiv.org/pdf/1912.00998
代码地址:https://github.com/facebookresearch/SlowFast/blob/master/projects/multigrid
推荐大家关注咚咚学AI公众号,会更新最新Cv论文和AI基本知识
摘要
引入主题 | 训练有竞争力的深度视频模型要比训练对应的图像模型慢一个数量级 |
---|---|
现存问题 | 训练缓慢导致研究周期长,阻碍了视频理解研究的进展。高分辨率模型表现良好,但训练缓慢。低分辨率模型训练得更快,但精确度较低。 |
论文方法 | 在数值优化的多重网格方法的启发下,提出使用不同时空分辨率的可变mini-batch形状,这些形状根据时间的变化而变化。在多个采样网格上对训练数据进行重采样,会产生不同的形状。当缩小其他维度时,通过扩大mini-batch大小和学习率来加速训练 |

Method
对于一个大小为 的视频数据
通过对其在时空上进行网络采样得到分辨率为 的时空形状
并保证如下关系
从而保证计算量近似相同
论文的多重网格方法使用了一组采样网格和一个网格选择schedule来决定在每次训练迭代中使用哪个采样网格

有上图的集中训练策略:
-
long cycle -
short cycle -
long + short cycles
其中的输入尺寸大小为
这样就通过可变的帧率T和长宽HW来加快训练速度,比如当帧率和长宽减小时,可是适当增大batch size,从而使得显存基本不变,但加快了训练速度
Experiments
实验结果表明,动态可变的帧率、长宽和batch size相比于静态的帧率、长宽和batch size能够获得一定的性能提升,并且能够获得显著的训练加速





作者介绍
咚咚
V1
哈尔滨工业大学-计算机视觉