机器学习数学基础学习笔记

1、微积分

1.1 导数

一阶导数，是函数的切线斜率

二阶导数，是切线斜率的变化速度，即曲线的弯曲程度，也称为“曲率”（curvature）

1.2 偏导数

偏导数，是多元函数关于某个自变量的导数，定义为：

梯度向量，gradient vector 将多元函数的所有偏导数写成一个列向量，即是梯度向量。

二阶偏导数

混合偏导数

混合偏导数和求导顺序无关，二阶偏导数连续的时候，则有

海塞矩阵多元函数的所有二阶偏导数就是海塞矩阵（Hessian Matrix）:

雅各比矩阵假定有值函数：

雅各比矩阵就是值函数的梯度向量，其重要意义在于它表现了一个多变数向量函数的最佳线性逼近。

1.3 方向导数 directional derivative

梯度和方向向量的点乘，就是方向导数方向导数需要除以方向向量的模

命题1：梯度向量是函数增长最快的方向，而负梯度向量该函数下降最快的地方。

命题2：梯度向量和contour set 正交

1.4 向量微分

线性函数的微分
二次型的微分

复合函数的向量微分

2、最优化

2.1 一元最优化

无条件一阶条件（first order condition）：二阶条件（second order condition）：
最小化：
最大化：

2.2 多元最优化

问题：一阶条件：梯度向量为零

二阶条件：海塞矩阵半正定，表明在局部最小值处，函数是凸函数（convex function）。

2.2 约束极值问题

单个约束条件问题：

解决办法：构造拉格朗日函数Lagrangian function 几何解释；

在最优解处，约束条件和目标函数的梯度向量平行，两者仅相差一个倍数。约束条件和目标函数都经过最优点，所以目标函数的等值线（contour set）和约束条件的等值线要么相交，要么相切。且由于两者的梯度向量平行，所以两个等值线的切线也必然平行。综上，两个曲线同时经过一点，且在这一点处的切线平行，可知等值线是相切，而不是相交。

的经济含义：条件b变动时，对目标函数的边际影响。如果b为资源总量，则是影子价格。（物物交换的价格）

多个约束条件与单个类似问题：

构造拉格朗日函数：

一阶条件：

其中，为g(x)雅各比矩阵的转置。结论：

的经济含义仍旧是影子价格，例如可解释为放松资源条件对目标函数最优值的边际作用。
目标函数的梯度向量是各约束条件梯度向量的线性组合，为权重。
约束极值问题的最优解是朗格朗日函数的鞍点，沿着x的方向，朗格朗日函数达到最大值，沿着的方向，拉格朗日函数达到最小值。

非负约束问题：

最优解有两种情况，要么是内点解（interior solution），要么是角点解（corner solution）。在内点解时， ;在角点解时，，所以两者的乘积必然为0。

此为互补松弛条件（complementary slachness conditions）: 最优化的一阶条件：

不等式约束问题：

库恩塔克条件：

2.3 最优化算法

是学习率，是随t变化的矩阵，用于改变梯度下降的步长，是梯度。

梯度下降法：
最速下降法: 每次迭代都求最优的步长
牛顿-拉夫森法令，有

牛顿法是二阶收敛，效率更高，但是如果初始值选择不恰当，有可能会不收敛。

3、线性代数

3.1 范数

1-范数是曼哈顿距离； 2-范数是欧几里得距离； 2-范数的平方就是内积。向量内积是一个数字向量外积是一个矩阵，由于矩阵的秩为1，也叫秩一矩阵。

3.2 向量空间

列空间由列向量张成（sppanned），其维度等于列秩
行空间由行向量张成，其维度等于行秩

3.3 谱分解

将矩阵A分解为n个外积的加权之和，权重为相应的特征值，这就是谱分解。

参考文献

陈强. 机器学习及python应用[M]北京：高等教育出版社, 2021