WACV2022 | 一张图片只值五句话吗？UAB提出图像-文本匹配语义的新视角！

【写在前面】

图像-文本匹配的任务旨在将来自不同模态的表示映射到一个共同的联合视觉文本嵌入中。然而，用于该任务的最广泛使用的数据集 MSCOCO 和 Flickr30K 实际上是图像字幕数据集，它们在其真实注释中提供了非常有限的图像和句子之间的关系集。这种有限的ground truth信息迫使我们使用基于二元相关性的评估指标：给定一个句子查询，我们只认为一个图像是相关的。但是，数据集中可能存在许多其他相关的图像或说明。在这项工作中，作者提出了两个指标来评估检索项目的语义相关程度，独立于它们的注释二进制相关性。此外，作者采用了一种新颖的策略，该策略使用图像字幕指标 CIDEr 来定义要在标准三元组损失中优化的语义自适应裕度 (SAM)。作者还证明了在使用完整的训练集时，标注图像-标题对的性能得到了保持，同时对其他未注释的相关项目进行了改进。

1. 论文和代码地址

Is An Image Worth Five Sentences? A New Look into Semantics for Image-Text Matching

论文地址：https://arxiv.org/abs/2110.02623^[1]

代码地址：https://github.com/andrespmd/semantic\_adaptive\_margin^[2]

2. 动机

语言提供了一种媒介来解释知觉体验，同时又是离散的无限的。 “离散无穷大”被称为一种属性，其中语言是通过使用少量离散元素构建的，尽管给出了无限多样的解释。换句话说，语言的离散无穷大特性决定了可以使用无限数量的语义正确的句子来表达相同的想法，例如，在描述一张图片。考虑到前面的概念，作者探索了跨模态检索场景中的图像文本匹配 (ITM) 任务。图像-文本匹配是指检索由不同模态描述的查询的相关表示的排序列表的问题。是的，与离散无穷大的概念相反，用于**图像-文本匹配 (ITM) **任务的常用数据集缺乏图像和字幕之间多对多映射的详尽注释。这些数据集最初是为图像字幕任务而设计的。尽管如此，ITM 中的假设是只有 5 个句子正确描述了单个图像，并以二进制方式将其标记为相关或不相关。因此，缺乏多对多注释会直接影响 ITM 任务的评估方式。根据ground truth不相关的句子可以以不同程度的正确性和覆盖率描述图像，从而使在 ITM 任务上评估当前模型的方式不完整。

我们可以在上图中看到此类问题的一个示例。用于评估 ITM 任务中模型性能的广泛采用的指标是 Recall@K。根据定义，在 IMT 中使用的 Recall@K 是二进制的：如果在给定查询的前 k 个位置内检索到至少一个根据ground truth的相关项目，则返回 1，否则返回 0。由于这种二进制定义，该度量不能完全评估准确度以及给定图像或其他方式检索到的句子的覆盖率。

此外， ITM 标准方法中的 to-go 策略依赖于构建样本时的难负例挖掘，以用于要优化的 Triplet 损失函数。当前最先进的方法严重依赖这种公式，这需要精心手工制作的固定边距。在这项工作中，作者通过将 SPICE和 CIDEr等图像字幕指标的使用作为 ITM 任务评估的附加指标公式的一部分引入了上述问题的解决方案。图像字幕指标已被广泛研究并被接受为评估与人类判断密切相关的句子含义相似性的自动工具。作者利用这些指标，通过将语言的连续统一体纳入评估，允许从传统召回过渡到标准化累积语义 (NCS) 召回。其次，考虑到语言的连续性，通过引入语义自适应余量（SAM）重新制定了三元组损失。根据图像字幕指标计算 SAM，该指标不依赖于难负挖掘方法。作者在数据有限的场景中采用的公式通过显着的检索改进实现了最先进的技术。

本文的贡献如下：

（1）从 ITM 任务中常用的 Recall@K 中找出缺点。通过采用图像字幕指标，我们对图像和字幕之间的多对多语义关系进行建模。

(2) 提出了一种新颖的语义自适应边距 (SAM)，它考虑了图像字幕指标来定义样本之间的相似性。

(3) 作者表明，通过依赖图像字幕指标并将它们纳入我们提出的自适应边距，在训练数据减少的场景中实现了显着提升。

(4) 作者在两个基准数据集上提供了详尽的实验，这表明通过结合自适应边距公式，可以在各种最先进的管道中实现性能的提高。

3. Metrics

首先介绍本工作其余部分中使用的命名法。首先，图像和标题集将被称为 I 和 C，而各自的测试集将由和表示。将与图像对应的所有ground truth标题称为。注意这个使用 φ 来表示评估度量函数，例如 CIDEr 或 SPICE。最后，表示给定查询 i 在 top-k 截止阈值处的检索项目。

3.1. Is an image worth 5 sentences?

ITM 中最常用的两个数据集，即 Flickr30k和 MSCOCO，每张图像包含 5 个ground truth（GT）句子。一个直接的结果是，当前的评估仅将这 5 个句子视为与单个图像相关。然而，众所周知的事实是，在 MSCOCO 或 Flickr30k 中有许多句子可以完美地描述非配对图像。换句话说，有一些句子（图像）与图像（句子）相关，即使它们在检索GT中没有被定义为这样。将这些样本称为非 GT相关项目。具体来说，ITM 模型在 MSCOCO 中对 5k 图像和 25k 句子进行了测试。在图像到文本检索的情况下，recall 完全忽略了剩余 24995 个句子（测试集的 99.98%）的检索顺序。是的，考虑所有语义相关的项目（包括非 GT）以正确评估模型的能力至关重要。

除了前面的问题，ITM 任务中使用的 Recall@K (R@K) 是一个二进制度量，即它是一个不考虑语言语义连续体的难度量。在语言方面，即使是GT配对句子也不能以相同的程度解释给定的图像，因为它们不是彼此的释义。

另一个确定的缺点是 ITM 中使用的召回公式与信息检索中使用的原始召回不同。 ITM 中使用的召回指标，称为。在图像到文本的场景中，只关心在 top-k 相关结果中检索到的第一个 GT 注释标题。这个公式丢弃了 GT 中剩余的 4 个带注释的样本。另一方面，召回率（称为 R）考虑了公式中的所有其他相关项目。值得注意的是，由于 GT 中仅存在 1 个相关图像，因此两种公式都考虑了文本到图像的场景。

在下面的公式中，可以更好地理解这两种召回公式。

在以下部分中制定本文的指标时，作者使用 R 而不是，因为它包括评估时的剩余 4 个项目。尽管如此，重要的是要注意，R 和都完全忽略了非 GT 样本可能的语义相关性。仅使用召回作为衡量标准存在的局限性在于它错过了评估那些非 GT 相关项目的事实。

3.2. Semantic Recall (SR)

本文的指标依赖于使用 CIDEr 和 SPICE 对字幕的评估来确定哪些图像在语义上与测试集中的其他句子相似。具体来说，对于给定的图像 i 和句子 j 使得，作者构造一个矩阵 N 其中：

其中和 φ 是字幕指标之一（CIDEr 或 SPICE）。一旦定义了相似度矩阵 N，就可以轻松地为每个可能的查询扩展与GT相关的项目。形式上，作者将定义为查询图像 i 的GT相关项目的扩展，它是来自的最相似的 m 个句子。现在定义语义召回（SR）指标如下：

该度量允许从经典的召回过渡到考虑语义相关性的度量。然而，与召回相关的二进制评分的限制仍然存在。另一个缺点是如何选择一个阈值 m 来捕获整个数据语料库中有多少非 GT 图像或句子是相关的。

3.3. Normalized Cumulative Semantic (NCS) Score

归一化累积语义分数 (NCS) 旨在解决上一节中描述的语义召回 (SR) 的局限性。 NCS 分数计算为检索到的样本的图像描述相似度 φ 与截止点 K 处的最大图像描述相似度分数 φ 之间的除法。形式上，将度量定义为：

图 1 中的方法 A 和 B 都同样擅长Recall ( )，但在 NCS 中的得分将非常不同。方法 A 将获得 0.2 的最高分。相反，方法 B 将获得更高的分数，因为与查询相比，检索到的样本包含更接近程度的语义。

使用这个公式，当 Recall@K (R@K) 处理语言的语义时，指定了一个解决方案。此外，NCS 在评估模型时可以适当地考虑非 GT 项，而无需选择阈值 m。

3.4. Correlation with Human Judgements

与本文的工作相关的是，最近引入的 CrissCrossed数据集是 MS-COCO 的扩展，包括人类对字幕和图像之间相似程度的判断。在这个数据集中，每个注释器在 MSCOCO 上以 5 -point likert scale 评估图像和句子的匹配程度。他们不仅为预定义的ground truth对收集这些判断，还为其他对收集这些判断。尽管广泛的注释过程是需要的，测试集包含 44k 个判断对，其中 25k 个是 ground truth。

作者利用这些人类判断来计算 Recall 和 NCS 的 PearsonR 相关系数。从上表中可以看出，当考虑所有对时，本文的指标与 SPICE 和 CIDEr 的人类判断具有更好的相关性。当考虑到 44k 对时，作者观察到 CIDEr 具有更好的相关性，尽管 SPICE 在 Non-GT 上更好，这就是为什么作者总是用 SPICE 评估本文的模型。此外，这也扩展到非GT相关对的情况。在非 GT 相关对中，由于度量定义，经典召回是无信息的，而 NCS 提供了与人类判断密切相关的可接受估计。

4.Methodology

在本节中，将介绍语义自适应margin (SAM) 公式，该公式旨在缓解在非穷举多对多数据映射中使用三元组损失的常见问题。在详细说明细节之前，首先向读者展示了原始的三元组公式以及 ITM 任务的正式定义。

令为图像和字幕对的训练集。这些对进一步分为正样本和负样本，其中被视为正样本，而被视为负样本。然后，嵌入的图像和字幕表示为和，其中 σc、σi 分别是字幕和图像的嵌入函数。给定一个相似函数 ψ，ITM中三元组损失的经典公式 LT 定义为：

其中 α 称为边距。三元组公式背后的直觉是，给定一个半径为 α 的 n 球体，正样本应该投射到 n 球体的内部区域，负样本应该投射到 n 球体的外部区域。这可以在下图的左侧部分中观察到。重要的是要注意，尽管难负对存在相关性，但三元组损失中使用的边际是固定的。

4.1. Semantic Adaptive Margin (SAM)

尽管在图像到图像的度量学习任务中可以接受固定的边距，但固定的边距不能正确地捕捉语言的连续性。查看上图的右侧，可以承认即使是非 GT 项目也可以正确解释提供的图像。因此，如果要正确建模语义，则使用固定边距并将每个否定视为相等是不可行的。由于这个事实，必须创建一个自适应边距来教模型语言的连续性。

因此，作者制定了语义自适应边缘（SAM）来动态计算图像和句子之间的相似度。更正式地说，给定一个正样本对和负样本 , ，作者使用 ground truth 标题集来计算通过合并 SAM ( ) 进行三重损失：

其中 ψ 是一个相似函数，例如余弦相似度， φ 代表前面提到的字幕度量（SPICE 或 CIDEr），τ 是一个温度参数，可以控制所需的余量有多宽或多小。换言之，τ被用作比例因子。本质上，如果（一个否定的标题）接近，那么会更低，而当它更远时，margin 会更高。正如等式所示，我们将 SAM 合并到原始三元组公式中，该公式为每个采样对分配了一个唯一的边际值。 SAM 仍然可以与原始triplet loss一起优化。

5.实验

使用 Recall 评估的 Text-to-Image Top-5 检索结果和呈现的非 GT 项目的语义召回。

减少训练数据样本的定量结果。

原始 VSRN、CVSE 和 SGR 模型在有和没有提出的 SAM 的情况下的检索结果比较。

消融实验结果。

6. 总结

在这项工作中，作者强调了在图像-文本匹配任务中缺乏注释所带来的挑战。受图像字幕指标的启发，作者提出了一个解决图像和字幕之间的多对多映射问题的公式。与标准召回相比，引入的指标，即归一化累积语义分数 (NCS)，显示出与人类判断的更高程度的语义相关性。此外，作者展示了一套全面的实验，这些实验考虑了使用 IC 指标来学习自适应余量。在训练数据稀缺（例如半监督学习）的情况下，这种边距的结合产生了很大的改进，并增加了检索到的非 GT 项目的语义。

【项目推荐】

面向小白的顶会论文核心代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch^[3]

面向小白的YOLO目标检测库：https://github.com/iscyy/yoloair^[4]

面向小白的顶刊顶会的论文解析：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading^[5]

“点个在看，月薪十万！” “学会点赞，身价千万！”

【技术交流】

已建立深度学习公众号——FightingCV，关注于最新论文解读、基础知识巩固、学术科研交流，欢迎大家关注！！！

请关注FightingCV公众号，并后台回复ECCV2022即可获得ECCV中稿论文汇总列表。

推荐加入FightingCV交流群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请添加小助手wx：FightngCV666，备注：地区-学校（公司）-名称

参考资料

[1]

https://arxiv.org/abs/2110.02623: https://arxiv.org/abs/2110.02623

[2]

https://github.com/andrespmd/semantic_adaptive_margin: https://github.com/andrespmd/semantic_adaptive_margin

[3]

https://github.com/xmu-xiaoma666/External-Attention-pytorch: https://github.com/xmu-xiaoma666/External-Attention-pytorch

[4]

https://github.com/iscyy/yoloair: https://github.com/iscyy/yoloair

[5]

https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading: https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading