张春成

V2

2022/01/11阅读:41主题:默认主题

样本均衡

样本均衡

在分类研究中,如果待分类的样本数量不均衡, 会给分类准确性度量造成极大的影响。 本文将使用可视化方法对这种影响进行量化。


度量分类效果的一般性指标

遇到分类任务,它总会有一些样本属于“正类”, 另外一些样本属于“负类”, 我们的目的就是把“正类”识别出来。

那么会遇到4种情况

  • 将正类样本识别为正类,True Positive
  • 将正类样本识别为负类,False Negative
  • 将负类样本识别为正类,False Positive
  • 将负类样本识别为负类,True Negative

其中,Positive代表样本被识别为正类,True代表识别正确。

它们满足一个限制条件

其中, 代表样本总数。 并且

其中, 代表正例样本数量。

分类正确率

因此,总体的目标识别正确率可以表示为

即分类正确率。 可见,正确率是受到不同类别样本比例影响的

具体受什么影响,需要见下文。

召回率和精确率

除了这些指标之外, 我们更加关心目标类别的识别效果,

  • 一个是目标样本被识别出的比例,称为召回率

  • 另一个是识别出的样本属于目标类的比例,称为精确率

这两个指标是不直接受到样本比例影响的, 由于它们与目标识别关系密切, 一个代表有多少目标能够被识别出来; 另一个代表识别出的目标有多可靠; 因此,可以用均衡精度指标来度量它们

也即

指标随样本比例的变化

接下来,对以上指标进行可视化。 为了展示不同样本比例对准确率的影响, 我将样本比例分别设置为 之间,均匀取 个点。

对于每种比例,我都生成了 的实验数据, 其中的两个 ,分别代表在目标类和非目标类中各有 比例的样本分类正确时, 各个分类统计指标的数值。

由于我们直接关心的往往是召回率和精确率指标, 因此将它们作为 轴, 将正确率值作为 值, 从而绘制三维图像如下

Recall-Precision-Graph
Recall-Precision-Graph

其中,每一个点代表不同的分类准确值, 点的颜色代表该点的均衡精度值。

可以看到,图中包含 个连续曲面, 它就是 种样本比例, 具体数值可见图下的标注。

我们可以观察出两个基本结论,

  • 样本比例越不均衡,则分类正确率越容易取高值, 这一点其实比较好理解,就是说在极端情况下, 如果某一类样本畸形的多,分类器无须进行分类, 只押注多的那一方,就能够获得高正确率;

  • 均衡精度不受样本比例的影响, 这一点可以从仰视图看到

    Recall-Precision-Graph-Bottom-Up
    Recall-Precision-Graph-Bottom-Up

    但它同样有缺点,那就是它对召回率和精确率“一视同仁”, 即使它取特定高值, 我们也无法判定分类方法是识别的样本都是目标样本, 还是把所有目标样本都找出来了。 前者可能意味着过高的误警,而后者则可能代表过高的无辜率。

One More Thing

而最后一个不起眼的问题是, 为什么不同比例的模拟点形成了互相远离的曲面, 而且看上去这些曲面还是“连续的”。

事实上,这是受到前面约束的影响。

并且

在这组方程的约束下, 原本的四维空间其实只乘下 个自由度, 这 个自由度无论怎么映射, 只要映射是连续的, 它就一定能够在三维空间中形成“面”这种结构。 这其实是一种“同胚变换”。

分类:

数学

标签:

数学

作者介绍

张春成
V2