CVPR2022 Oral | 从粗到系！北航&美团提出3D-SPS，基于参考点渐进选择的单级三维Visual Grounding

【写在前面】

三维视觉定位是指在三维点云场景中，根据一种自由形式的语言描述来定位参考的目标对象。以往的方法大多遵循两个阶段的范式，即语言无关检测和跨模式匹配，这受到孤立体系结构的限制。在这种模式下，由于三维点云(不规则和大规模)的固有属性，检测器需要从原始点云中采样关键点，以便为每个关键点生成相应的对象建议。然而，稀疏的建议可能会遗漏检测中的目标，而密集的建议可能会混淆匹配模型。此外，语言无关检测阶段只能对目标上的一小部分关键点进行采样，从而降低了对目标的预测。本文提出了一种3D单步参考点渐进选择(3D-SPS)方法，该方法在语言的引导下逐步选择关键点，并直接定位目标。具体地说，我们提出了一个描述感知关键点采样(DKS)模块来粗略地关注与语言相关的对象的点，这些点是接地的重要线索。此外，我们设计了一个面向目标的渐进挖掘(TPM)模块，通过渐进的模式内关系建模和模式间目标挖掘来精细地聚焦于目标的点。3D-SPS在3D视觉接地任务中弥合了检测和匹配之间的差距，在单个阶段定位目标。实验表明，3DSPS在ScanRefer和Nr3D/Sr3D数据集上都达到了最好的性能。

1. 论文和代码地址

论文题目：3D-SPS: Single-Stage 3D Visual Grounding via Referred Point Progressive Selection

论文地址：https://openaccess.thecvf.com/content/CVPR2022/papers/Luo\_3D-SPS\_Single-Stage\_3D\_Visual\_Grounding\_via\_Referred\_Point\_Progressive\_Selection\_CVPR\_2022\_paper.pdf^[1]

代码地址：https://github.com/fjhzhixi/3D-SPS^[2]

2. 动机

视觉定位(VG)的目的是基于与对象相关的语言描述来定位场景中的目标对象。近年来，三维虚拟现实任务因其广泛的应用而受到越来越多的关注。尽管2D VG任务已经取得了很大的进展，但由于点云的不规则和大规模，在3D场景中定位参考目标对象仍然是具有挑战性的。

现有的3D VG方法主要基于先检测后匹配的两级流水线。第一阶段是与语言无关的检测，其中采用通用的3D对象检测器来产生大量的对象建议。第二个阶段是跨通道匹配，其中特定的视觉-语言注意机制通常被设计成与建议和描述相匹配。以往的方法主要集中在第二阶段，即探索提案之间的关系以区分目标对象。

我们认为，这两个阶段的分离限制了现有的方法。以前的2D检测方法在规则和组织良好的图像上采用与数据无关的锚盒作为建议。然而，对于大规模和不规则的三维点云，基于锚点的方式通常是不现实的。因此，第一阶段中使用的3D检测器需要对有限数量的关键点进行采样以表示整个场景，并为每个关键点生成相应的建议。然而，稀疏的建议可能会遗漏检测阶段的目标(例如，图1(A)中的沙发椅)，这导致无法在匹配阶段定位目标。同时，密集的提案可能包含冗余对象，导致提案之间的关系非常复杂，以至于匹配模块难以区分目标。如图1(B)所示，很难从这些外观相似的众多提案中选择合适的沙发椅。因此，两阶段接地法面临着确定方案数量的两难境地。此外，在第一阶段检测器中通常采用的关键点采样策略(例如，最远点采样(FPS))也与语言无关。该策略的目的是对关键点进行采样，尽可能覆盖整个场景，以检测所有潜在的对象。因此，目标关键点的比例较小，不利于目标预测。

针对上述问题，本文提出了一种三维单阶段参考点渐进选择方法。我们的主要思想是在整个过程中在语言描述的指导下逐步选择关键点，如图1(C)所示。基于这一思想，我们提出了一种描述感知关键点采样(DKS)模块来粗略地关注与语言相关的对象的点，例如图1(C)中的沙发椅、沙发和桌子。这些关键点为在随后的跨模式交互中定位接地目标提供了重要线索。此外，我们还设计了一个面向目标的渐进式挖掘(TPM)模块，它可以进行渐进式挖掘来精确地找出目标。我们利用自我/交叉注意机制分别对通道内/通道间关系进行建模。此外，我们将关键点特征与整个场景的点特征进行融合，实现全局定位感知。为了循序渐进地选择目标的关键点，我们利用语言点交叉注意图来选择语言更关注的关键点，并丢弃不相关的关键点。该模型逐渐聚焦于目标，通过多个层次得到一个浓缩的关键点集合。因此，随着目标相关特征的丰富，目标点的比例会逐渐增加，这有利于目标盒回归。最后，3D-SPS将目标与浓缩的关键点集区分开来，并回归其边界框。请注意，3D-SPS也符合人类如何找到目标对象的常识。通常，人类首先根据语言描述选择一个粗略的候选集，然后对其进行精细识别和判断，从而选择目标对象。

3. 方法

3.1.概述

在3D VG任务中，输入的是点云和目标对象的带有W个单词的自由格式纯文本描述D，其中pCloud包含3D坐标和F维辅助特征(RGB、法矢等)。共N个点。此任务的目标是定位目标对象(即，与描述最相关的对象)并预测其边界框。

3D-SPS的主要思想是渐进的关键点选择过程，如图2所示。首先，我们采用广泛使用的PointNet++作为骨干网络，从中提取点特征。主干输出具有(x，y，z)坐标和三维丰富局部特征的M个种子点。同时，我们使用语言编码器从W长度描述D中提取高维单词特征。其次，DKS模块根据单词特征L0从MSeed点中选择具有特征的K0语言相关关键点。这些关键点属于描述中提到的其类别的对象，为区分接地目标提供了重要线索。第三，TPM模块将点特征P0和词特征L0作为输入。TPM模块的第t层将PT−1和LT−1作为输入和输出。最后，我们通过一个简单的MLP头部，预测了基于关键点特征PT和跨通道对齐词语特征LT的指代置信度得分sr。具有最高SR的关键点特征用于将接地目标的包围盒回归为中心和大小。

通过将3D VG任务处理为关键点选择问题，3D-SPS专注于从点云中区分出目标对象的关键点，从而直接预测包围盒，这比传统的先检测后匹配的两阶段方法更有效。

3.2.支持描述的关键点采样

由于3D锚盒的搜索空间很大，当提升到3D时，在2D对象检测中广泛采用的与数据无关的锚分配策略是不切实际的。为此，大多数3D对象检测方法通常采用采样方法(例如，FPS)来从种子点采样关键点并为每个所选点生成建议。现有的3D VG任务检测匹配方法在检测阶段通常采用相同的策略。然而，由于两个任务的兴趣差异，直接采用采样策略对3D VG任务进行检测是不明智的。3D目标检测的采样目标是尽可能覆盖整个场景以检测潜在目标，而3D VG的目标是定位参考目标。

因此，我们提出了DKS，以帮助模型关注与语言相关的对象的关键点，而不是整个场景。具体地说，我们将单词特征引入到采样过程中，以选择描述中提到的类别的对象的关键点。这些关键点不仅包含目标对象的信息，还包含帮助确定目标的相关对象的信息。

图3详细介绍了DKS。我们首先获得一个对象置信度分数，从而基于点特征PSeed来澄清该点是否位于对象中心附近。具有最高Ko的关键点特征Pobj被选择为：

然后，利用描述相关性分数SD来选择顶部Kd个关键点作为与描述上下文L0相关的P0。我们联合使用点特征POBJ和全局词特征来预测每个点的SD，它可以表示为：

3.3.面向目标的渐进式挖掘

利用DKS粗略选取的语言相关关键点，利用TPM模块进行精细的目标挖掘。TPM由T层堆叠的多通道两流转换器模型构建，其中词特征和关键点特征在不同的流中处理，并通过跨通道关注层进行交互来建模关系和挖掘目标。在第t层，TPM从Pt−1中选择Pt。TPM逐步地选择关键点，并通过丢弃每一层中与目标相关的关键点来集中注意力。

模式内/模式间建模。如图4所示，我们使用注意机制来学习通道内关系。对于点特征，点自我注意块有助于提炼点视觉特征并利用它们的空间关系。对于词特征，使用语言自我注意块来提取上下文关系。 注意力引导的关键点选择。TPM减少了在每一层设置的关键点，并逐渐将重点放在目标上，如图4所示。我们利用的语言点交叉注意图，它代表了关键点对引用任务的重要性。

4.实验

5. 总结

在这项工作中，我们提出了一种全新的点云三维视觉接地框架，称为3D单级参考点渐进选择方法(3D-SPS)。它在语言的引导下，按照从粗到细的方式逐步选择重点，并在单个阶段直接定位目标。综合实验表明，我们的方法在ScanRefer和Nr3D/Sr3D数据集上的性能都大大优于现有的3D VG方法，从而获得了新的最先进的性能。3D-SPS由于3D点云和自由描述的复杂性而存在局限性，尽管我们已经对现有的方法进行了重大的改进。依赖于视图的描述和模棱两可的查询都会混淆模型。这些局限性可以指导我们未来的工作。

更多细节请参考原文！

参考资料

[1]

https://openaccess.thecvf.com/content/CVPR2022/papers/Luo_3D-SPS_Single-Stage_3D_Visual_Grounding_via_Referred_Point_Progressive_Selection_CVPR_2022_paper.pdf: https://openaccess.thecvf.com/content/CVPR2022/papers/Luo_3D-SPS_Single-Stage_3D_Visual_Grounding_via_Referred_Point_Progressive_Selection_CVPR_2022_paper.pdf

[2]

https://github.com/fjhzhixi/3D-SPS: https://github.com/fjhzhixi/3D-SPS