Kern
2023/03/09阅读:31主题:橙心
机器学习(一)线性模型————理论篇 线性回归模型、对数几率模型、线性判别分析模型、多分类学习模型
线性模型基本介绍
线性模型(linear model)是通过学习一个属性的线性组合来进行预测的函数。线性模型形式简单,可解释性高,蕴含着机器学习中的重要思想,所以将线性模型列为机器学习的第一个模型。
线性模型的基本形式为:
其中, ,反映了各个属性在预测中的重要性,当 和 确定后, 模型随之确定。
介绍的基本内容有:
-
基本线性回归模型 -
对数几率回归模型 -
线性判别分析模型 -
多分类学习模型
基本线性回归模型
给定数据集
, 其中
;
),
. “线性回归” (linear regression)
试图学得一个线性模型以尽可能准确地预测实值输出标记.
回归模型的主要步骤为:建立含参线性模型、构造性能度量、参数估计、参数值代入含参线性模型获取预测输出结果.
单元线性回归
为了方便理解模型数学公式表达,先从单属性入手,输入属性的数目只有一个。
-
建立含参线性模型
单元线性回归试图学得
-
构造性能度量
性能度量用于衡量 和 之间的差别。这里建立均方误差为性能度量:
均方误差有非常好的几何意义,它对应了常用的欧几里得距离或简称“欧 氏距离”(Euclidean distance).基于均方误差最小化来进行模型求解的方法称 为“最小二乘法”(least square method).在线性回归中,最小二乘法就是试图 找到一条直线,使所有样本到直线上的欧氏距离之和最小.
-
参数估计
求解
和
使
最小化的过程, 称为线性回归 模型的最小二乘 “参数估计” (parameter estimation)
. 我们可将
分别对
和
求导,并令导函数为零。 可得到
和
最优解的闭式解:
多元线性回归
-
建立含参线性模型
与单元线性回归不同的是,多元线性回归需要将 与 向量化,如本节开头所示数据集 ,样本有 个属性描述,此时,我们试图学得:
这称为“多元线性回归”(multivariate linear regression)
.
-
构造性能度量
这里建立均方误差为性能度量:
(1)为了便于讨论,这里将 和 吸收合为一个向量 .相应的,把数据集表示为一个矩阵 ,其中每行对应一个样本,前 列对应于每个样本的 个属性值,最后一列元素恒为 1,即
(2)构造性能度量上式的推导
根据向量内积的定义可知, 上式可以写成如下向量内积的形式
所以
-
参数估计
将上式对
注意:这里涉及矩阵求导,详情见矩阵微分公式。
注意:上式解只存在与当
为满秩矩阵(full-rank matrix) 或正定矩阵 (positive definite matrix)时。其他情况需要选择哪一个解作为输出,这将由学习算法的归纳偏好决定
对数几率回归
广义线性模型介绍
在上文中,我们希望我们构造的线性模型的预测值逼近真实标记
这就是 “对数线性回归” (log-linear regression)
, 它实际上是在试图让

更一般的,考虑单调可微函数
这样得到的模型称为 “广义线性模型” (generalized linear model)
, 其中函数
“联系函数” (link function)
. 显然, 对数线性回归是广义线性模型在
对数几率回归模型
上文提到,我们想让输出结果落在一定的范围内,以使得其输出结果更好的反映分类结果大小,为了这个目的,我们找到了一个连续单调可微函数 “对数几率函数(logistic function)”
:

对数几率函数是一种 “sigmoid” 函数,它能将输出值转化为一个接近 0 或 1 的
-
建立含参线性模型
若将
视为样本 作为正例的可能性, 则 是其反例可能性, 两者的比值 称为 “几率” (odds), 反映了 作为正例的相对可能性. 对几率取对数则得到 “对数几率” (log odds, 亦称 logit)
-
构造性能度量
于是, 我们可通过 “极大似然法” (maximum likelihood method)
来估计
即令每个样本属于其真实标记的概率越大越好. 为便于讨论, 令
其中,由所建立的含参线性模型,我们知道:
显然有
代入上述模型,得到最后的性能度量函数:
最大似然法简单介绍:快速理解极大似然法
这里省略了部分步骤,详情请见南瓜书。
-
参数估计
与上述模型不同的是,对数几率模型无法获取闭式解,只能通过牛顿法或梯度下降法求解数值最优解。于是得到:
线性判别分析
线性判别分析(Linear Discriminant Analysis, 简称 LDA) 是一种经典的线性学习方法, 在二分类问题上因为最早由Fisher提出, 亦称 “Fisher 判别分析”.
LDA 的思想为: 给定训练样例集, 设法将样例投影到一条直线上, 使得同类样例的投影点尽可能接近、不同类样例的投影点尽可能远离; 在对新样本进行分类时, 将其投影到同样的这条直线上, 再根据投影点的位置来确定新样本的类别. 如下图所示:

建立模型
给定数据集
-
第
-
第
-
第
-
两类样本的中心在直线上的投影:
-
两类样本的协方差:
同类样例的投影点尽可能接近
异类样例的投影点尽可能远离
构造性能度量
于是, 性能度量可以表示为
参数估计
补充 广义瑞利商
首先要求解最优化的性能度量来估计参数,需要补充一个知识点:“广义瑞利商”(generalized Rayleigh quotient)
我们首先来看看瑞利商的定义。瑞利商是指这样的函数
其中
瑞利商
具体的证明这里就不给出了。当向量
以上就是瑞利商的内容,现在我们再看看广义瑞利商。广义瑞利商是指这样的函数
此时我们的
利用前面的瑞利商的性质,我们可以很快的知道,
详见 瑞利熵和广义瑞利熵
参数估计的求解
我们看性能度量的表达式:
为了配凑广义瑞利商的形式,我们有如下的定义:
定义 “类内散度矩阵” (within-class scatter matrix)
以及 “类间散度矩阵” (between-class scatter matrix)
则性能度量可重写为
这就是 LDA 欲最大化的目标,即
可以解得估计的参数为:
多分类学习问题
多分类学习问题,通常由多个二分类问题构成,将多分类问题拆解为二分类问题,有三种拆分策略:
-
一对一 (OvO) -
一对其余 (OvR) -
多对多 (MvM)

容易看出, OvR 只需训练
“纠错输出码” (Error Correcting Output Codes, 简称 ECOC)
.
ECOC 是将编码的思想引入类别拆分, 并尽 可能在解码过程中具有容错性. ECOC 工作过程主要分为两步:
-
编码: 对 -
解码:

类别划分通过 “编码矩阵” (coding matrix)
指定. 编码矩阵有多种形式, 常见的主要有二元码 和三元码. 前者将每个类别分别指定为正类和反类, 后者在正、反类之外, 还可指定 “停用类” . 图(a) 给出了一个示意图, 分类器
分类:
人工智能标签:
机器学习作者介绍