
FightingCV
2022/11/29阅读:24主题:默认主题
ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务
ECCV2022 Oral | 微软提出UNICORN,统一文本生成与边框预测任务
1. 论文和代码地址

论文题目:Crossing the Format Boundary of Text and Boxes: Towards Unified Vision-Language Modeling
论文地址:https://arxiv.org/abs/2111.12085v1[1]
代码地址:https://github.com/microsoft/UniTAB[2]
2. 动机
目前许多跨模态任务都是检测框与文本信息的结合,许多模型是通过提取图片区域局部特征然后预测生成检测框,之后再进行跨模态交互。然而提取区域局部特征过于消耗计算量,并且需要花费大量时间。
受到论文Pix2seq的启发,将检测框位置信息也可以作为序列信息,与文本信息一起进行训练与预测,这样就只需要训练一个模型,模型就可以充分利用数据,然后应用到不同的VL任务中,同时极大地减少了模型参数量,改善了模型在下游视觉语言任务中的表现。
3. 方法

论文旨在于提出一个统一的预训练模型,该模型能够跨越文本和图像检测框之间的输出格式的差异,从而在不对原有模型做出改动的情况下直接迁移到VQA,caption,grounding等等各种下游任务当中。

如上图所示,针对图片,论文使用卷积神经网络来对图片特征进行编码;针对文本,论文使用预训练好的RoBERTa基准模型来对文本特征进行编码,编码后的图像与文本特征投影到共享嵌入空间进行信息融合。之后再经过transformer encoder 与transformer decoder模块,在decoder模块以自回归的方式生成文本和框坐标token,而这些token从文本词库与坐标词库中选取。
论文直接沿用了Pix2seq文章的思路,用language modeling的方法自回归的生成图像描述或者是目标检测框的位置信息。每一个目标物体都由4个token来表示它检测框的位置信息,其中每一个位置token都会预测到200 bins中的某一个。在构建input sequence的时候,如上图所示,对于caption里面的任何一个目标物体短语,都会在其前后各自加上<obj>和<\obj>的特殊token以及4个位置token,由此构建带有位置信息的caption序列。

UNICORN模型使用单一的语言建模目标来训练模型,即最大化成功预测目标token的可能性,公式如下图所示,其中v表示输入的图像,l表示输入的文本,St表示目标token,S<t表示之前的目标tokens。

UNICORN模型经过预训练与微调阶段来应用到下游任务,如上图所示,具体分为Pre-training,Multi-task finetuning以及Task-specific finetuning。
Pre-training:
论文在和M-DETR一样的预训练集上做了预训练,如上图(a)所示,每个预训练的训练样本都是一对image-text的pair,输入的文本信息或者图片信息都有50%的概率被全部mask掉。
Multi-task finetuning:
如上图(b)所示,UNICORN 模型没有根据不同下游任务来设计不同的预训练模型结构。具体而言,先收集所有下游任务的训练样本,然后针对所有不同的 VL 任务训练同一个模型,模型同时对多个任务进行优化。不同于pre-training,multi-task finetuing保持着每个下游任务的原始目标序列格式,这种微调方式的一个主要优点是单个模型可以支持多个 VL 任务,从而节省模型参数。
Task-specific finetuning:
如上图(c)所示,UNICORN 模型也可以对单个特定任务进行微调。论文作者发现,multi-task finetuning不仅可以生成在下游任务中表现良好的模型,还可以为第二阶段特定任务微调提供良好的初始化点。因此,论文先对模型做预训练,然后做multi-task finetuning,最后再做task-specific finetuning。
Inference:
论文使用 argmax 采样来获得序列预测,然后针对不同的下游任务选取合适的序列内容。论文量化框标记以获得框预测,丢弃框标记以获得文本预测。最后,论文根据不同的下游任务上选择不同的评估模型及输出格式。
4.实验
UNICORN 使用单一的统一架构处理范围广泛的 VL 任务,并实现了高于或可与特定任务的SOTA水平相媲美的性能。
Grounded image captioning:

Visual grounding:

COCO image captioning:

Visual question answering:

Summary of results obtained by the unified UNICORN architecture:

可视化实验:

5. 总结
UNICORN统一了VL任务中的文本生成和框预测。UNICORN使用单一的统一架构处理范围广泛的 VL 任务,并实现了与特定任务的SOTA水平相当的性能,并可以很好地泛化到新任务,拥有着巨大潜力,相信它为构建具有更强智能的视觉系统能起到一定的促进作用。
参考资料
https://arxiv.org/abs/2111.12085v1: https://arxiv.org/abs/2111.12085v1
[2]https://github.com/microsoft/UniTAB: https://github.com/microsoft/UniTAB
作者介绍

FightingCV
公众号 FightingCV