DSSL | 环境和任务可以分开学习，南理工团队DSSL模型，还附带一个新数据集！

【写在前面】

以前基于文本的人物检索任务的许多方法都致力于学习潜在的公共空间映射，目的是从视觉和文本模态中提取模态不变特征。然而，由于高维数据的复杂性，无约束的映射范式无法在丢弃错位信息的同时正确捕捉有关相应人的判别线索。直观上，视觉数据中包含的信息可以分为人信息（PI）和环境信息（SI），它们是互斥的。为此，我们在本文中提出了一种新颖的深度环境-人物分离学习（DSSL）模型，以有效地提取和匹配人物信息，从而实现卓越的检索准确性。人与人分离融合机制是在互斥约束下实现准确有效的人与人分离的关键。为了充分利用多模态和多粒度信息以获得更高的检索精度，采用了五种不同的对齐范例。作者进行了广泛的实验来评估在 CUHK-PEDES 上提出的 DSSL， CUHK-PEDES 是目前唯一可用于基于文本的人物检索任务的数据集。 DSSL 在 CUHK-PEDES 上实现了最先进的性能。为了在真实场景中正确评估提出的 DSSL，作者构建了基于文本的真实场景人员重新识别 (RSTPReid) 数据集。

1. 论文和代码地址

DSSL: Deep Surroundings-person Separation Learning for Text-based Person Retrieval

论文地址：https://arxiv.org/abs/2109.05534^[1]

代码地址：https://github.com/njtechcvlab/rstpreid-dataset^[2]

2. 动机

行人检索是视频监控领域的一项基本任务，其目的是在给定查询条件下，在大型行人图像数据库中识别出相应的行人。当前行人检索的研究主要集中在基于图像的行人检索（又名行人重新识别），在实际应用中有时可能会遇到目标行人查询图像缺失的问题。考虑到在大多数现实世界场景中，文本描述查询更容易访问，基于文本的人物检索因其有效性和适用性而引起了极大的关注。

由于基于文本的人物检索涉及处理多模态数据，因此可以将其视为跨模态检索的特定子任务。然而，不是在图像中包含各种类别的对象，而是基于文本的人物检索所关心的每个图像只包含一个特定的行人。同时，文本描述查询提供了有关相应人员的更多详细信息，而不是粗略地提及图像中的对象。由于基于文本的人物检索的特殊性，许多先前在通用跨模态检索基准上提出的方法（例如 Flickr30K和MSCOCO ）对其泛化效果不佳。此外，CUHK-PEDES 是目前唯一可用于基于文本的人物检索的数据集。它的规模很大，包含从不同场景、视点和相机规格下的各种重识别数据集中收集的图像。然而，每个特定人的图像大多是在相似的时间和空间条件下被同一台相机拍摄的，这与实际应用场景并不相符。因此，作者构建了一个基于 MSMT17的 Real Scenarios Text-based Person Reidentification (RSTPReid) 数据集，以进一步训练和评估本文工作的性能，这也有利于未来的研究。对于每个人，RSTPReid 汇集了由 15 台不同相机在不同时间段内拍摄的具有复杂室内外场景变换和背景的 5 张图像，这使得 RSTPReid 更具挑战性，更能适应真实场景。在 RSTPReid 和 CUHK-PEDES 上进行的大量实验可以更好地验证本文工作的准确性和效率。

基于文本的人物检索的主要挑战是有效地从原始图像和文本描述中提取和匹配特征。许多以前的方法致力于学习潜在的公共空间映射，目的是从视觉和文本模态中提取模态不变特征。这些提出的方法主要基于这样的假设，即通过潜在的公共空间映射，两种模态承载的信息的交集，即目标人的信息可以保留为提取的模态不变的共同特征。然而，由于高维数据的复杂性，无约束的映射范式无法在丢弃未对齐信息的同时正确捕捉有关相应人的判别线索（如上图所示）。

直观上，视觉数据中包含的信息可以分为相互排斥的人物信息（PI）和环境信息（SI）。同时，给定的文本描述查询通常描述某个行人的性别、外貌、服装、随身物品、可能的运动等。在大多数真实场景中，提供查询的描述者几乎不知道目标人物在被监控摄像头捕捉到时所处的环境类型，以及光线条件、视点等可以变化的环境。因此，给定的文字描述基本上只包含人物信息，不包含周边信息。由于自然语言句子的结构，语义上不相关的词和不正确的语法等噪声信号（NS）也不可避免地包含在内。基于上述讨论，一种有效的算法可以准确地分离视觉数据中的人和环境信息，并适当地对从文本数据中提取的特征进行去噪，对于提高检索性能至关重要。

为此，作者在本文中提出了一种新颖的深度环境-人物分离学习（DSSL）模型，以有效地提取和匹配人物信息，从而实现卓越的检索准确性。 DSSL 将原始图像和文本描述作为输入，并首先从两种模态中提取全局和细粒度的局部信息。

DSSL 旨在适当地分离环境和人员信息。为了实现这一目标，作者提出了一种新颖的环境-人分离模块（SPSM），以相互排斥的方式将视觉信息拆分为人和环境特征（表示为和）。然后作者采用信号去噪模块（SDM）对从文本模态中提取的人物特征（表示为）进行去噪和细化。如上所述，理想情况下，人的特征和纯粹是关于目标人的，没有特定于模态的干扰。因此，它们之间的对齐(𝐴𝑙𝑖𝑔𝑛𝐼)可以被视为将画廊图像中的行人与描述者心目中的行人相匹配。此外，通过提出的环境-人融合模块（SPFM），将与融合并重建为的视觉模态。然后在SPSM（𝐴𝑙𝑖𝑔𝑛𝐼𝐼）分割之前对与视觉特征进行对齐，可以看作是将被描述的人放置在与画廊人相同的环境中，然后将其与包括视觉模态空间中周围环境的完整画廊图像进行匹配。此外，作者还使用了一个人描述模块（PDM），将重构为文本模态，即，然后将其与非细化的文本特征（𝐴𝑙𝑖𝑔𝑛𝐼𝐼𝐼）对齐。这种提出的对齐可以看作是用文本描述图库图像中的人，然后在文本模态空间中将文本与给定的查询句子进行匹配。由于SPSM中的相互排斥约束，和之间是相互正交的，所以视觉信息在它们之间分布，没有重叠。在训练过程中，𝐴𝑙𝑖𝑔𝑛𝐼和𝐴𝑙𝑖𝑔𝑛𝐼𝐼𝐼将形成一个约束条件，迫使包含更完整的人员信息。基于互斥前提，中的个人信息将因此被纳入。同时，𝐴𝑙𝑖𝑔𝑛𝐼𝐼是通过将被描述的人放入画廊人的周围环境中来进行的，这就要求将周围环境的信息适当地包含在中，而在中则被剥离。因此，这三种对齐互补，在相互排斥约束下指导和之间的正确信息交换，最终导致准确有效的环境-人分离。为了充分利用细粒度的线索，作者采用了一种跨模态注意（CA）机制，进一步将一个模态提取的局部特征矩阵与另一种模态的全局特征对齐。

本文贡献如下：

(1)提出了一种新的深度环境-人分离学习（DSSL）模型，以正确地提取和匹配人的信息。所提出的环境-人分离与融合机制对于在相互排斥约束下实现准确有效的环境-人分离具有关键作用。

(2)采用了五种不同的对齐模式来充分利用多模态和多粒度信息，从而提高了检索精度。

(3)采用信号去噪模块（SDM）对从文本模态中提取的人的特征进行去噪和细化。

(4)在CUHK-PEDES 上进行了大量的实验来评价所提出的DSSL。DSSL优于以前的方法，并在曲线上取得了最先进的性能。

(5)构建了一个真实场景的基于文本的人再识别（RSTPReid）数据集，以有利于未来基于文本的人检索的研究。

3. 方法

3.1 Feature Extraction And Refinement

3.1.1 Feature Extraction

作者利用在ImageNet上预训练的ResNet-50主干从给定的图像𝐼中提取全局/局部视觉特征。为了获得全局特征，将ResNet-50的最后一个池化层之前的特征图通过然后通过平均池化层、一个组归一化（GN）层、一个全连接（FC）层缩小为一个向量。在局部分支，相同的特性图首先水平𝑘-分区池𝑘×1×2048，然后局部条分别通过GN和两个fc之间的重新层形成𝑘𝑝-dim向量，最后连接获得局部视觉特征矩阵。

在文本特征提取中，作者将整个句子和从中提取的𝑛个短语作为文本材料，由双向GRU（bi-GRU）处理。将前向和后向gru的最后一个隐藏状态连接起来，给出全局/局部的𝑝-dim特征向量。从整个句子中得到的𝑝-dim向量通过一个GN，然后是一个FC，形成全局文本feature 。对于每个特定的输入短语，相应的输出𝑝-dim向量由一个GN和两个fc连续处理，它们之间有一个ReLU层，然后相互连接形成局部文本特征矩阵。

3.1.2 Textual Person Information Refinement

为了进一步去除文本数据中的噪声信号，从而对提取的人信息进行细化，作者采用信号去噪模块（SDM）分别处理全局特征向量和局部特征向量。在固定的归零比𝑟下，将输入向量中固定数量的元素设置为零。然后采用自动编码器的方式重构处理后的向量，得到文本人特征vector 和局部文本人特征矩阵：

其中，𝑍（𝑥，𝑟）为比率为的零设定操作，和。通过归零和重建机制，要求输入向量在充分保留有效信息的同时丢弃冗余的噪声信号。SDM的重建损失被定义为：

其中，表示矩阵𝑀𝑇和𝑇𝐿中的第𝑖个向量。由于检索任务的特殊性质，去噪向量应该与原始向量适当匹配，而不是表面上的相似。因此，与其利用传统的欧几里得距离来指导重建，还不如利用triplet ranking loss：

为了更准确地约束匹配对比边缘为𝛼的不匹配对更接近，其中或表示不匹配对，𝑆（·，·）是两个向量之间的余弦相似度。

3.2 Deep Surroundings-Person Separation Learning

如上图 (b)所示，作者采用了五种对齐范式，充分利用多模态和多颗粒信息，实现了一个鲁棒的深度环境-人分离学习过程，从而提高了检索精度。

3.2.1 Align I

为了处理视觉数据，人特征和环境特征通过一个周围的人分离模块（SPSM）被分离，它被实现为两个并行的多层感知器（MLP）（特征维度转换为𝑝→2𝑝→𝑝），然后是一个𝑡𝑎𝑛ℎ层：

从这两种模态中提取的人的特征首先被对齐。𝐴𝑙𝑖𝑔𝑛𝐼的对齐损失为：

此外，还提出了一种相互排除约束（MEC），以确保和彼此正交，并且视觉信息在它们之间分布而不重叠。设和分别表示训练batch中的人物和环境特征的矩阵，其中B为batch大小，则互斥损失为：

3.2.2 Align II

通过提出的环境-人融合模块（SPFM），𝑇𝑃与𝑉𝑆融合，并重建为视觉模式为𝑉𝑅：

然后与𝑉𝐺对齐，𝐴𝑙𝑖𝑔𝑛𝐼𝐼的对齐损失是

𝑆𝑃𝐹𝑀首先通过加法或串联组合两个输入向量，然后用类似于𝑆𝑃𝑆𝑀的MLP处理组合特征。

3.2.3 Align III

使用一个人描述模块（PDM），它被实现为一个具有𝑡𝑎𝑛ℎ激活函数的MLP，将𝑉𝑃重构为文本模式为𝑇𝑅，然后与𝑇𝐺对齐：

𝐴𝑙𝑖𝑔𝑛𝐼𝐼𝐼的对齐损失为：

3.2.4 Align IV

首先采用显著注意模块（SAM）在局部视觉特征矩阵𝑀𝑉中突出人物信息：

其中，𝐺𝑁表示群归一化层而𝑊1、𝑊2和𝑏1，𝑏2表示线性变换。为了充分利用细粒度的线索，作者利用跨模态注意（CA）机制将𝑉𝐿与文本人物特征𝑇𝑃对齐，形成一个𝑝-dim向量：

其中，表示第𝑖个局部视觉部分与文本人物特征之间的关系。而𝐴𝑙𝑖𝑔𝑛𝐼𝑉的对齐损失是：

3.2.5 Align V

与𝐴𝑙𝑖𝑔𝑛𝐼𝑉相似，𝐴𝑙𝑖𝑔𝑛𝑉的对齐损失为：

3.3 Loss Function for Training

3.3.1 Stage-1

我们首先确定ResNet-50主干的参数，并对DSSL的识别（ID）损失的左侧特征提取部分进行训练

由于全局特性可以为聚类提供更完整的信息，所以这里只使用了𝑉𝐺和𝑇𝐺：

而在第一阶段的全部损失是：

3.3.2 Stage-2

在这一阶段，DSSL的所有参数都被细化在一起。这里还使用了ID损失，以确保人的特征和重建的特征能够与对应的人正确地关联：

这五种对齐损失用于提高检索精度：

随着互斥损失的出现，第二阶段的全部损失为

4.实验

在本文构建的RSTPReid数据集中的高频单词和人的图像。

在CUHK-PEDES和RSTPReid上的DSSL中五种对齐范式的消融分析

对CUHK-PEDES上的相互排斥约束（MEC）、环境-人分离与融合（SPSM + SPFM）、显著注意模块（SAM）和信号去噪模块（SDM）的消融分析。

SPFM中使用的特征组合方法在CUHK-PEDES上的性能比较。

在CUHK-PEDES上的SDM中归零率𝑟的性能比较。

DSSL排名前5的基于文本的人检索结果示例。目标行人的图像用红色矩形标记。

与其他最先进的CUHK-PEDES方法的比较。

5. 总结

在本文中，作者提出了一种新的深度环境-人分离学习（DSSL）模型来有效地提取和匹配人的信息，从而获得更好的检索精度。环境-人分离融合机制是在相互排斥约束下实现准确有效的环境分离的关键作用。为了充分利用多模态和多颗粒信息以获得更高的检索精度，采用了五种不同的对齐范式。在CUHK-PEDES上对所提出的DSSL进行了大量的实验评估，这是目前唯一的文本基人员检索任务可访问的数据集。DSSL优于以前的方法，并在CUHK-PEDES上取得了最先进的性能。为了在真实场景中正确评价所提出的方法，作者进一步构建了一个基于真实场景文本的人再识别（RSTPReid）数据集，以有利于未来基于文本的人检索的研究。

【项目推荐】

面向小白的顶会论文核心代码库：https://github.com/xmu-xiaoma666/External-Attention-pytorch^[3]

面向小白的YOLO目标检测库：https://github.com/iscyy/yoloair^[4]

面向小白的顶刊顶会的论文解析：https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading^[5]

【技术交流】

已建立深度学习公众号——FightingCV，关注于最新论文解读、基础知识巩固、学术科研交流，欢迎大家关注！！！

请关注FightingCV公众号，并后台回复ECCV2022即可获得ECCV中稿论文汇总列表。

推荐加入FightingCV交流群，每日会发送论文解析、算法和代码的干货分享，进行学术交流，加群请添加小助手wx：FightngCV666，备注：地区-学校（公司）-名称

参考资料

[1]

https://arxiv.org/abs/2109.05534: https://arxiv.org/abs/2109.05534

[2]

https://github.com/njtechcvlab/rstpreid-dataset: https://github.com/njtechcvlab/rstpreid-dataset

[3]

https://github.com/xmu-xiaoma666/External-Attention-pytorch: https://github.com/xmu-xiaoma666/External-Attention-pytorch

[4]

https://github.com/iscyy/yoloair: https://github.com/iscyy/yoloair

[5]

https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading: https://github.com/xmu-xiaoma666/FightingCV-Paper-Reading