张春成

V2

2022/01/13阅读:83主题:默认主题

Coco数据集

Coco数据集

Coco数据集是通用较强的数据集, 它的全称为“Common Objects in Context”, 里面包含了各种日常物品,可以细分为80类。 对这些图像中的物品进行统计, 也许可以帮助我们了解一般的图像的统计特性。


数据描述

我们不去看具体的图像, 只看图像的描述文件, 它的典型描述包含以下信息

Overview 1
Overview 1

这是描述表的一部分, 拿第0条记录为例, 它标记了第558840张图中包含了物体, 物体的类别ID为58, 这个物体的位置在图中的 199.84, 200.46位置,宽和高分别为77.71, 70.88

另外,它还标记了物体的AREA,代表物体的轮廓所占的图像大小, 它们的分布如下图所示

Area
Area

由于是采用对数坐标, 所以可以看到不同类别的物体所占的空间差异较大, 但单纯使用大小把它们区分出来也并不现实。

物体位置分布

我们接下来对BBOX字段进行统计分析, 以像素热图的形式展示出来,

Dist 1
Dist 1

可以看到,由于图像大多是以目标物体为中心进行拍摄, 因此它们在大多数情况下都在图像中间,

物体的特异性

但也有有意思的发现,比如

  • 厨房用品的分布一般都比较杂乱,

    Kitchen
    Kitchen

    你在哪都能找到它们的身影;

  • 体育运动物体一般比较集中,

    Sports
    Sports

    当然,这与它们数量较少有关;

  • 交通标志分布比较集中,一般出现在左上角

    Traffic
    Traffic

    也许与大家的拍摄习惯有关, 至于它们的下面是否一定有机动车, 就待下一步分析。

均值和方差

下面进行汇总,将这些统计值汇总后, 按类别进行归一化(采用MIN - MAX方法), 按像素进行求平均和方差,有下图

Mean
Mean

Std
Std

均值和方差的差异表明, 虽然物体在统计意义上会大概率出现在图像中心, 但由于各自大小和形状的不同, 它们的分布在靠近中央的外周圈的分布差异较大, 这也是十分符合直觉的结果。

彼此遮挡

最后,我们来看一下图中物体相互遮挡的情况, 我们统计了每一张图中的物体遮挡情况, 统计方法是计算每一个像素属于的物体类别的数量, 如果这个计数大于1,就表明它出现了遮挡现象, 结果如下

Occlude
Occlude

可以看到,遮挡情况还是存在的, 数值也并不小,甚至达到了10, 至于是哪些物体互相遮挡, 就需要进一步分析了。

分类:

后端

标签:

后端

作者介绍

张春成
V2