张春成
2022/01/13阅读:68主题:默认主题
Coco数据集
Coco数据集
Coco数据集是通用较强的数据集, 它的全称为“Common Objects in Context”, 里面包含了各种日常物品,可以细分为80
类。 对这些图像中的物品进行统计, 也许可以帮助我们了解一般的图像的统计特性。
数据描述
我们不去看具体的图像, 只看图像的描述文件, 它的典型描述包含以下信息

这是描述表的一部分, 拿第0
条记录为例, 它标记了第558840
张图中包含了物体, 物体的类别ID为58
, 这个物体的位置在图中的 199.84, 200.46
位置,宽和高分别为77.71, 70.88
。
另外,它还标记了物体的AREA
,代表物体的轮廓所占的图像大小, 它们的分布如下图所示

由于是采用对数坐标, 所以可以看到不同类别的物体所占的空间差异较大, 但单纯使用大小把它们区分出来也并不现实。
物体位置分布
我们接下来对BBOX
字段进行统计分析, 以像素热图的形式展示出来,

可以看到,由于图像大多是以目标物体为中心进行拍摄, 因此它们在大多数情况下都在图像中间,
物体的特异性
但也有有意思的发现,比如
-
厨房用品的分布一般都比较杂乱,
Kitchen 你在哪都能找到它们的身影;
-
体育运动物体一般比较集中,
Sports 当然,这与它们数量较少有关;
-
交通标志分布比较集中,一般出现在左上角
Traffic 也许与大家的拍摄习惯有关, 至于它们的下面是否一定有机动车, 就待下一步分析。
均值和方差
下面进行汇总,将这些统计值汇总后, 按类别进行归一化(采用MIN - MAX
方法), 按像素进行求平均和方差,有下图

和

均值和方差的差异表明, 虽然物体在统计意义上会大概率出现在图像中心, 但由于各自大小和形状的不同, 它们的分布在靠近中央的外周圈的分布差异较大, 这也是十分符合直觉的结果。
彼此遮挡
最后,我们来看一下图中物体相互遮挡的情况, 我们统计了每一张图中的物体遮挡情况, 统计方法是计算每一个像素属于的物体类别的数量, 如果这个计数大于1
,就表明它出现了遮挡现象, 结果如下

可以看到,遮挡情况还是存在的, 数值也并不小,甚至达到了10
, 至于是哪些物体互相遮挡, 就需要进一步分析了。
作者介绍