jasonme
2022/11/19阅读:30主题:默认主题
几分钟拿下最大似然估计(Maximum Likelihood Estimation)
最大似然估计是不同模型参数估计中最常用的准则,它避免我们去猜测参数的测算办法,而给出了一个准确的算法计算逻辑,是所有学习算法中最基础的理论之一,有基础的概率论和微分理解就可以完成推导。本文简单的总结推导以及应用过程
问题定义
已知: 一组样本 ,它们符合某种概率分布 ,
求解: 寻找对分布参数 的最佳点估计算法
一个更清晰的描述问题的方式为根据概率分布来预测参数 ,最大化已知样本与模型预测的相似度,因此,本方法比较直白的被称为最大化似然估计(Maximum Likelihood Estimation)。
解决方法
假设每个样本是独立分布的(绝大部分情况下都是独立分布),每个样本的概率密度函数(Probability Density Function)为 。那么他们的联合概率质量分布(Joint Probability Mass Function)为各自分布的乘积:
即为一个准确的最大化相似度的定义。这样问题即转化为计算一个能使 最大化的 。
这样,只需要将 对 进行微分最极值,即可得到最优解,达到最大似然估计。
实例应用
假设我们观察n个由猫和狗组成的动物群,观察样本记录为: ,如果值为0,表示这是只猫;如果值为1,表示这是只狗。
如果我们假定它们的分布符合Bernoulli分布:
如果我们希望通过记录的值,来估计最准确的 (这样可以用概率来预测下一个动物是猫或是狗),那通过最大似然就可以计算出来。
首先,写出联合概率质量分布:
接下来只要对 求微分,然后取极值就可以。
因为对乘积求微分难度大,使用高数的基本技巧,使用对数将乘法转为加法:
再对 求微分
两边同时乘以 ,整理式子,即可得到极值点时, 的取值:
即 应该取各观察样本值的均值,是可以最大化模型与样本的相似度的。
小结
最大似然可能是最基础、常用的参数估计方法之一,在样本集数量无限大时,保证收敛到最接近的估计。但当样本小的时候,会比较容易发生过拟合,需要使用正则化策略等其他方法完成参数估计。
作者介绍