ECCV2022 | 大工（卢湖川团队）提出用于图像-文本匹配的深度跨模态投影学习

觉得不错的话，文末帮忙点个“赞”吧😃

【写在前面】

图文匹配的关键是如何准确测量视觉和文本输入之间的相似度。尽管将深度跨模态嵌入与双向排序损失相关联取得了巨大进展，但开发用于挖掘有用三元组和选择适当边距的策略仍然是实际应用中的挑战。在本文中，作者提出了一种跨模态投影匹配 (CMPM) 损失和跨模态投影分类 (CMPC) 损失，用于学习有区别的图像-文本嵌入。 CMPM 损失最小化了投影兼容性分布与用mini-batch中的所有正样本和负样本定义的归一化匹配分布之间的 KL 散度。CMPC 损失尝试使用改进的 norm-softmax 损失对表示从一种模态到另一种模态的向量投影进行分类，以进一步增强每个类的特征紧凑性。对多个数据集的广泛分析和实验证明了所提出方法的优越性。

1. 论文和代码地址

Deep Cross-Modal Projection Learning for Image-Text Matching

论文地址：https://openaccess.thecvf.com/content\_ECCV\_2018/papers/Ying\_Zhang\_Deep\_Cross-Modal\_Projection\_ECCV\_2018\_paper.pdf^[1]

代码地址：https://github.com/YingZhangDUT/Cross-Modal-Projection-Learning^[2]

2. 动机

探索图像与自然语言之间的关系最近引起了研究人员的极大兴趣，因为它在各种应用中都非常重要，例如双向图像和文本检索、自然语言对象检索、图像字幕和视觉问答 (VQA)。这些应用程序的一项关键任务是测量视觉数据和文本描述之间的相似性。现有的深度学习方法要么尝试在共享的潜在空间中学习图像和文本的联合嵌入，要么构建相似性学习网络来计算匹配图文对的得分。基于联合嵌入学习的方法在测试阶段学习判别性跨模态表示和计算效率方面显示出巨大潜力。

通常，用于图文匹配的联合嵌入学习框架采用二分支架构（如上图所示），其中一个分支提取图像特征，另一个对文本表示进行编码，然后使用设计的目标函数学习有区别的跨模态嵌入。最常用的函数包括典型相关分析 (CCA)和双向排序损失。与基于 CCA 的方法相比，双向排序损失产生更好的稳定性和性能，并且越来越广泛地用于跨模态匹配。然而，它会在实际应用中采样有用的三元组并选择适当的边距。

尽管这些深度学习技术在仅通过配对对应匹配图像和文本方面取得了巨大成功，但最近的一些工作探索了具有身份级别注释的更有效的跨模态匹配算法。这些研究工作表明，通过引入类别分类损失作为辅助任务或预训练初始化，可以大大增强学习的图像-文本嵌入的辨别能力。考虑到独立分类可能无法充分利用跨模态特征学习的身份信息这一事实，一些工作开发了跨模态交叉熵 (CMCE) 损失，该损失利用跨模态样本与身份的相似性进行类别预测，而这种策略需要分配额外的身份特征缓冲区，当有大量主题时会带来大量的内存消耗。

为了解决这些问题，作者提出了跨模态投影匹配 (CMPM) 损失和跨模态投影分类 (CMPC) 损失，它引入了跨模态特征投影操作来学习判别性图像-文本嵌入。CMPM损失试图最小化投影兼容性分布和归一化匹配分布之间的KL散度，以增加未匹配样本之间的方差和匹配样本之间的关联。 CMPM 损失函数不需要选择特定的三元组或调整边际参数，并且在各种batch大小下表现出很好的稳定性。对于具有身份标签的辅助分类任务，CMPC 损失尝试将特征的向量投影从一种模态分类到来自另一种模态的匹配特征上，而不是对原始特征进行独立分类。大量的实验和分析证明了所提出的方法在有效学习判别性图像-文本嵌入方面的优越性。

3. 方法

3.1 Network Architecture

本文提出的方法的框架如上图所示。可以看到图像-文本匹配架构由三个组件组成：一个用于提取图像特征的视觉 CNN，一个用于编码文本特征的双向 LSTM (Bi-LSTM) ，以及用于关联跨模态表示的联合学习模块。

给定一个句子，作者应用基本的标记化并将其拆分为单词，然后使用 Bi-LSTM 依次处理它们。连接前向和后向的隐藏状态，并使用最大池化策略获得初始文本表示。对于图像，使用 MobileNet从最后一个池化层中提取其初始特征。在关联模块中，提取的图像和文本特征被嵌入到共享的潜在空间中，其中匹配特征之间的兼容性和未匹配样本之间的方差最大化。

在本文中，作者专注于学习关联模块中的判别特征，并在以下部分描述所提出的跨模态投影匹配（CMPM）和跨模态投影分类（CMPC）损失函数。

3.2 Cross-Modal Projection Matching

作者引入了一种新的图像-文本匹配损失，称为**跨模态投影匹配 (CMPM)**，它将跨模态投影结合到 KL 散度中，以关联不同模态的表示。

给定一个包含 n 个图像和文本样本的 mini-batch，对于每个图像，图像-文本对构造为，其中表示 (xi, zj) 是匹配对，而表示不匹配对。将 xi 与 zj 匹配的概率定义为：

其中表示归一化的文本特征。几何上表示图像特征到文本特征上的标量投影，可以看作是在所有对中的标量投影的百分比一个mini-batch。下图（a）显示了交叉模态投影的几何解释。可以看到，图像特征与文本特征越相似，标量投影越大。请注意，如果两个向量方向相反，则标量投影可能为负，例如图中所示的。

考虑到在一个 mini-batch 中可能有多个与匹配的文本样本这一事实，作者将的真实匹配概率归一化为：

将与正确匹配的文本样本相关联的匹配损失定义为：

其中是一个很小的数字，以避免出现数值问题，mini-batch中从图像到文本的匹配损失由下式计算：

实际上表示从分布 qi 到 pi 的 KL 散度，最小化 KL(pi||qi) 试图选择一个概率低的 pi，其中 qi 的概率低。上图 (b) 说明了使用 mini-batch 数据提出的匹配损失，可以看到图像 x1 的真实匹配分布 q1 具有多种模式，在 mini-batch 中有多个匹配的文本候选，并且提出的匹配损失尝试选择单个模式分布 p1 以避免将概率质量置于 q1 模式之间的低概率区域，从而使不匹配的图像文本对的兼容性最小化，而匹配对的相关性最大化。请注意，给定一张图像，在计算匹配损失时会考虑一个mini-batch中的所有正负文本候选，从而摆脱传统双向排序损失中的专用采样程序。

在图文嵌入学习中，匹配损失通常在两个方向上计算：图文匹配损失要求匹配的文本比未匹配的文本更接近图像，反之文本到图像匹配损失将相关文本限制在不相关文本之前。类似地，从文本到图像的匹配损失可以通过交换方程式中的 x 和 z 来制定。双向 CMPM 损失由下式计算：

3.3 Cross-Modal Projection Classification

对于具有身份级别注释的图像文本匹配，应用于每种模态的分类损失有助于学习更多的判别特征。然而，图像-文本对的匹配关系可能无法在单独的分类任务中得到充分利用。在本节中，作者开发了一种新的分类函数，其中跨模态投影被集成到 norm-softmax 损失中，以进一步增强匹配嵌入的紧凑性。

Norm-softmax

首先，作者通过研究 softmax 分类器的决策标准来重新审视传统的 softmax 损失。给定从视觉 CNN 提取的图像特征，从 Bi-LSTM 提取的文本特征，从 M 个类别提取的标签集，原始用于分类图像的 softmax 损失可以计算为：

其中yi表示xi的标签，表示权重矩阵W的第yi和j列，分别表示偏置向量b的第yi和j个元素。为了提高分类过程中图像特征 xi 的判别能力，作者对 softmax 损失进行权重归一化：

与原始的softmax loss相比，norm-softmax loss将所有权重向量归一化为相同的长度，以减少权重大小对区分不同样本的影响。这里作者为了简化分析省略了偏差 b，实际上发现它没有区别。

norm-softmax loss的直观解释如上图所示。可以看到，对于原始softmax，分类结果取决于，其中θk表示角度在 x 和 Wk 之间。对于norm-softmax，所有的权重向量都被归一化为相同的长度，分类结果只能依赖于。这种限制鼓励特征 x 沿着权重向量更紧凑地分布，以便正确分类。

Cross-Modal Projection

在本文中，作者尝试将图像特征投影到相应的文本特征上进行分类，而不是对原始特征表示进行分类。跨模态投影将图像-文本相似性整合到分类中，从而加强匹配对内的关联。

通过将跨模态投影合并到 norm-softmax 中，可以重新制定方程式：

其中表示图像特征到归一化文本特征的矢量投影。直观地说，所有匹配的文本样本都需要位于的方向上，才能将图像特征投影到上面，以促进正确的分类。文本分类损失函数可以写成：

最终的 CMPC 损失可以计算为

3.4 Objective Functions

对于只有成对对应的匹配任务，可以利用提出的 CMPM 损失来学习有区别的图像-文本嵌入。如果身份标签可用，采用提出的 CMPM 损失和 CMPC 损失的联合来更准确地关联跨模态表示。整体目标函数表示为

在测试阶段，给定图像和文本，首先分别用视觉 CNN 和 Bi-LSTM 网络提取图像特征 x 和文本特征 z。然后计算 x 和 z 之间的余弦距离，用于图像到文本和文本到图像的检索评估。

4.实验

Flickr30K 数据集上的结果。

MSCOCO 数据集上的结果。

CUHK-PEDES 数据集的结果。

CUB 和 Flowers 数据集的结果。

R@1 (%) 在 CUHK-PEDES 数据集上不同批大小的跨模态匹配函数比较。

R@1 (%) 在 CUHK-PEDES 数据集上跨模态投影学习不同组件的比较。

学习到的特征分布与所提出的方法的比较。

5. 总结

在本文中，作者提出了一种新颖的跨模态投影匹配损失 (CMPM) 和跨模态投影分类 (CMPC) 损失，用于学习深度判别图像-文本嵌入。 CMPM 损失利用 KL 散度来最小化不匹配的图像-文本对的兼容性分数，同时最大化匹配的图像-文本对之间的相关性。它在各种batch size下关联图像和文本显示出极大的稳定性和优越性，没有阻碍传统双向排序损失的三元组采样和边距选择。 CMPC损失将匹配关系纳入辅助分类任务，进一步增强了每个类别的表示紧凑性。

【技术交流】

面向小白的顶会论文核心代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch^[3]

面向小白的YOLO目标检测库：https://github.com/iscyy/yoloair^[4]

面向小白的顶刊顶会的论文解析：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading^[5]

参考资料

[1]

https://openaccess.thecvf.com/content_ECCV_2018/papers/Ying_Zhang_Deep_Cross-Modal_Projection_ECCV_2018_paper.pdf: https://openaccess.thecvf.com/content_ECCV_2018/papers/Ying_Zhang_Deep_Cross-Modal_Projection_ECCV_2018_paper.pdf

[2]

https://github.com/YingZhangDUT/Cross-Modal-Projection-Learning: https://github.com/YingZhangDUT/Cross-Modal-Projection-Learning

[3]

https://github.com/xmu-xiaoma666/External-Attention-pytorch: https://github.com/xmu-xiaoma666/External-Attention-pytorch

[4]

https://github.com/iscyy/yoloair: https://github.com/iscyy/yoloair

[5]

https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading: https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading