A Multigrid Method for Efficiently Training Video Models

论文地址：http://arxiv.org/pdf/1912.00998

代码地址：https://github.com/facebookresearch/SlowFast/blob/master/projects/multigrid

推荐大家关注咚咚学AI公众号，会更新最新Cv论文和AI基本知识

摘要

引入主题	训练有竞争力的深度视频模型要比训练对应的图像模型慢一个数量级
现存问题	训练缓慢导致研究周期长，阻碍了视频理解研究的进展。高分辨率模型表现良好，但训练缓慢。低分辨率模型训练得更快，但精确度较低。
论文方法	在数值优化的多重网格方法的启发下，提出使用不同时空分辨率的可变mini-batch形状，这些形状根据时间的变化而变化。在多个采样网格上对训练数据进行重采样，会产生不同的形状。当缩小其他维度时，通过扩大mini-batch大小和学习率来加速训练

Method

对于一个大小为的视频数据

通过对其在时空上进行网络采样得到分辨率为的时空形状

并保证如下关系

从而保证计算量近似相同

论文的多重网格方法使用了一组采样网格和一个网格选择schedule来决定在每次训练迭代中使用哪个采样网格

有上图的集中训练策略：

其中的输入尺寸大小为

这样就通过可变的帧率T和长宽HW来加快训练速度，比如当帧率和长宽减小时，可是适当增大batch size，从而使得显存基本不变，但加快了训练速度

实验结果表明，动态可变的帧率、长宽和batch size相比于静态的帧率、长宽和batch size能够获得一定的性能提升，并且能够获得显著的训练加速