张春成
2022/10/17阅读:47主题:默认主题
信息论中熵的一些证明(一)
信息论中熵的一些证明(一)
本文提供一些信息熵的有用证明,供日后查阅。
Shannon Entropy 的极值
从熵的定义出发
再加上概率密度函数的归一化约束
可以构造拉格朗日函数
其中,归一化约束的系数为待定常数。对概率密度函数求偏导,可得
求二阶偏导,可得
由于二阶偏导恒小于零,且当概率密度函数为“平均分布”时该函数取极大值,因此可以认为当概率密度函数为“平均分布”时,Shannon Entropy 达到最大。也就是说,如果一个符号的概率密度函数越平均,则它越难预测,对这个符号进行观测时,能够解决的信息量也就越大。
另外,由于上述求导方法并不严谨,因此对它进行必要的补充。不严谨的地方在于概率密度函数作为整体,在某个位置的扰动必然会影响其他位置,因此,不能简单假设它们是独立的。
其中, 代表两个位置下概率密度函数的 Jacobian 行列式。由于归一化函数关系的存在,这些行列式总可以写成对角矩阵的形式,且对角线上的值为 1 和 -1。此时,虽然目前的证明不保证该式为零时有唯一解,但仍然不妨碍平均分布是该方程的一个平凡解。
Cross Entropy 的极值
交叉熵的定义如下
同样构造拉氏方程
其偏微分为
其二阶偏微分为
由于两个分布都受到归一化约束,因此当且仅当两个分布“完全一致”时,函数取极值。又由于其二阶偏导函数非负,因此该极值为极小值。在考虑到 Jacobian 行列式后,这同样是一个平凡解。与 Shannon Entropy 时相同。
简单例子
接下来,对 Shannon Entropy 的计算举一个简单的例子。对于高维分布总有归一化约束存在,
因此对们进行简单的“合并”,或者说“特征提取”。提取的方法是通过聚类方法将这些分布聚成 3 组,对 3 组分布求和
则新的概率密度函数只有 3 个维度,且三个变量之和恒为 1。这就相当于三维空间中的一个平面
则之前的 Perlin 噪声可以在这个空间中表示成如下平面。可见这些噪声基本上铺满了整个三角形空间,且越靠近中央其信息熵越高,这与之前的推论是一致的。
.png)
.png)
而如果信号分布过于接近,它们在整个空间中只会占据一小部分
.png)
下面选择一张实际的图,将它的行当作一些信号,则这些信号在概率空间中的分布如下,一般来讲,它们都会呈现出一定的形状,这些分布的形状就是 ML 领域要学到的东西。
.png)
.png)
.png)

作者介绍