老齐

V1

2022/12/17阅读:36主题:科技蓝

费雪的线性判别分析

有朋友问:为什么感觉对机器学习和神经网络,似乎总是隔着一层纱那样,不清晰,虽然能跑代码,但总是不放心,不知道自己做的是否有根据。 这是因为:和机器学习之间,缺少了一个数学。

费雪的线性判别分析

1. 缘起

对于线性判别分析的介绍,在网上或者有关书籍中,均能找到不少资料。但是,诸多内容中,未能给予线性判别分析完整地讲解,本文不揣冒昧,斗胆对其中的一部分内容,即费雪的线性判别分析进行整理,权当自己的学习笔记,在这里发布出来,供朋友们参考。

2. 费雪的线性判别分析

英国统计学家费雪(Ronald Fisher)提出的专门为含有两个类别样本的有监督的降维方法,称为“费雪的线性判别分析(Fisher Linear Discriminant Analysis)。

费雪的线性判别分析基本思想是(如图1所示):

图 1

获得数据在某直线(超平面)上的投影,并同时要求:

  • 类内散度最小
  • 类间散度最大

多数资料中介绍线性判别分析的时候,都是按照上述费雪所提出的线性判别分析思想讲解的。

本文也首先介绍上述基本思想,而后引申出其他相关问题。

注意:以下内容是以数学推导为主,对此方面如读者有感不足,请参阅:《机器学习数学基础》的书籍或视频课程

2.1 二分类的样本数据

设数据样本 ,样本大小为 ,特征数(维数)是

假设此样本分为两类,类别 ,样本数为 ;类别 ,样本数量为 。并且

2.2 问题:投影可能重叠

设有一条直线 L ,用单位向量 )表示此直线的方向。

若将样本中的任意一个向量 向此直线投影,得到投影量 ,其中 表示投影的大小(长度)。

由于 与单位向量 正交,即: ,所以:

故样本中每个样本 在直线 L 上的投影大小 为:

所在的空间称为 空间,投影 所在的空间称为 空间。

根据(2)式结果,可以得到 空间的每个类别样本的投影大小的平均数:

),代表 空间的某个类别的所有样本的平均数向量(样本平均),故(3)式可以继续表示为:

由于可以用均值表示数据的集中趋势 ,那么向量 ,就可以作为对应类别的中心的度量。则(4)式即表示将 空间的每个类别的样本平均(即该类别的中心,或称“类别中心”),投影到直线 L ,得到了 空间上每个类别样本投影的平均数(即 ,表示该类别样本投影的中心,或称“类别投影中心”)。

于是得到两个类别投影中心的距离:

(5)式说明,类别投影中心的距离( )等于类别中心的距离(即 )的投影

数据点与数据点之间的距离,表征了数据的分散程度,统计学中使用方差衡量数据的分散程度 (样本方差: 。因此,可以使用 度量不同类别投影中心的分散程度,并将其命名为类间散度(Between-class scatter),即:

散度与方差有相同的地方,都表示了数据相对平均值的分散程度。图 2 左边表示了散度较大,右边较小。

图 2

根据前述费雪的线性判别基本思想,要找到一条适合的直线,用作样本数据投影,并且要能够满足类间散度最大 ,即找到适合的 ,使得 最大化。

下面使用拉格朗日乘数法 解决这个问题,但是,做一下转化,将“最大化”转化为“最小化”,在最大化的表达式前面添加一个负号。

定义拉格朗日函数:

其中 是拉格朗日乘数。为了计算极值,必须要计算

要实现(7)是中第一个式子的最小化,须令 ,则:

因为 是数量(标量),所以:

这说明直线 L 的方向与两个类别中心的距离矢量方向平行。

但是,如果按照(11)式的方式确定直线 L 方向,样本的投影有可能出现图 1 所示的重叠现象。

从降维的角度看,假设是将高维数据降到一维,图 1 演示的降维效果并不会有利于后续分类过程。

对此,费雪提出,应该兼顾类别之间和同一类别之内的样本投影的方差:

  • 不同类别之间的样本投影的方差越大越好(如以上说明)
  • 同一类之内的样本投影的方差越小越好

这样,在直线(或超平面)上的投影,不同的类别投影中心的距离就尽可能大;同一类别之内的样本的投影尽可能聚集在一起。

2.3 费雪准则

前面已经确定,可以用类别的样本数据的平均数表示每个类别的样本数据的中心(即类别中心):

以下将 表述为每个类别分别在 空间的平均数向量。

在直线 L 上,类别同样中心用的样本投影的平均数表示:

以下将 表述为在 空间的平均数。

仿照方差的定义形式,定义 空间衡量类别内数据投影相对本类别投影中心的分散程度的量: 空间类内散度(Within-calss scatter):

前述(6)式定义了 空间的类间散度

根据费雪的思想,既要实现 空间的类间散度最大化,同时又要实现 空间的类内散度最小化。也就是实现下述函数最大化:

2.4 散度矩阵

以下分别写出 空间的类内、类间散度的矩阵表示形式,分别称为散度矩阵

  • 空间的每个类的类内散度矩阵:

  • 空间整体的类内散度矩阵:

  • 空间的类间散度矩阵:

    其中 见(12)式。

  • 空间的类内散度:

根据(14)式和(2)、(13)式, 空间的类内散度 等于:

故:

  • 空间的类间散度:

空间的类间散度 等于:

于是,(16)式的费雪准则,可以用(21)式和(22)式的结果表示为:

由(17)和(18)式可知, 是半正定矩阵,如果样本大小 大于维数 (这种情况比较常见),则 一般为正定,且可逆。

由(19)式可知, 是半正定矩阵,若 ,则

2.5 最优化问题求解

对(23)式的最大化求解,可以有多种方法:

  • 法1:直接计算 求解
  • 法2:用线性代数方法:因为(23)式也称为广义瑞利商,故可以根据冠以特征值求解
  • 法3:拉格朗日乘数法:参考资料 [1] 中使用的这个方法,但推导过程不详细。

法1:

最直接的思路: