张春成

V2

2022/01/15阅读:49主题:默认主题

从词向量的角度理解COCO

从词向量的角度理解COCO

上一篇从类别标签的角度介绍了COCO数据集的基本情况, 本文将从“词向量”的角度理解这组数据。


图的词向量表示

这里的词向量并没有NLP领域中的那么复杂, 只是对图像中包含的物体的简单描述。

举个例子, 假如某张图像中包含第X和第Y个类别的物体, 则我们可以用向量对它进行表达

其中, 以及 代表图像中包含这两种物体, 其他值 代表图像中不包含其他物体。

这样,对于COCO数据中4万多张图像, 就可以用矩阵进行表达

其中, 代表全部物体的类别数量, 代表图像数量。 再忽略掉只包含一类物体的图像, 剩下约 多张图像,

其中, 代表图像数量。

基于词向量的概率分析

下面,对这个大矩阵进行分析, 首先统计各个类别的出现概率

Base Prob.
Base Prob.

横轴是使用对数坐标系, 可以看到各个类别之间的出现概率有差异, 但差异并不足以对它们进行区分, 唯一值得说的是“人物”在图像中出现的概率远大于其他类别。

下面进行后验概率分析,

所谓后验概率, 就是指当图像中包含某一个类别的物体时, 它同时包含其他类别物体的概率。

Forward Prob.
Forward Prob.

这是常用的后验概率表示方法, 矩阵中的像素颜色代表概率大小, 每一行代表该类别的物体出现在图像中, 各个列代表在该前提下, 其他类别的出现概率。

可以大致看到三点,

  1. 看第一行, 当“人物”出现在图像中时,其他类别出现的概率都不大, 这说明图像中“人物”的独照比较多;

  2. 看第一列, 这列的概率值均较大, 这说明其他类别出现在图像中时,往往伴有“人物”的出现;

  3. 看右下角, 这些概率值明显比其他区域更大, 这说明这些物体往往伴随出现。

因此,我们可以认为,图像的类别之间具有较强的协同关系。 在之后的文章中,我会分别使用PCATSNESOM三种可视化方法, 试图对图像的类别结构进行进一步分析。

分类:

后端

标签:

后端

作者介绍

张春成
V2