张春成

V2

2022/10/17阅读:25主题:默认主题

信息论中熵的一些证明(一)

信息论中熵的一些证明(一)

本文提供一些信息熵的有用证明,供日后查阅。


Shannon Entropy 的极值

从熵的定义出发

再加上概率密度函数的归一化约束

可以构造拉格朗日函数

其中,归一化约束的系数为待定常数。对概率密度函数求偏导,可得

求二阶偏导,可得

由于二阶偏导恒小于零,且当概率密度函数为“平均分布”时该函数取极大值,因此可以认为当概率密度函数为“平均分布”时,Shannon Entropy 达到最大。也就是说,如果一个符号的概率密度函数越平均,则它越难预测,对这个符号进行观测时,能够解决的信息量也就越大。

另外,由于上述求导方法并不严谨,因此对它进行必要的补充。不严谨的地方在于概率密度函数作为整体,在某个位置的扰动必然会影响其他位置,因此,不能简单假设它们是独立的。

其中, 代表两个位置下概率密度函数的 Jacobian 行列式。由于归一化函数关系的存在,这些行列式总可以写成对角矩阵的形式,且对角线上的值为 1 和 -1。此时,虽然目前的证明不保证该式为零时有唯一解,但仍然不妨碍平均分布是该方程的一个平凡解。

Cross Entropy 的极值

交叉熵的定义如下

同样构造拉氏方程

其偏微分为

其二阶偏微分为

由于两个分布都受到归一化约束,因此当且仅当两个分布“完全一致”时,函数取极值。又由于其二阶偏导函数非负,因此该极值为极小值。在考虑到 Jacobian 行列式后,这同样是一个平凡解。与 Shannon Entropy 时相同。

简单例子

接下来,对 Shannon Entropy 的计算举一个简单的例子。对于高维分布总有归一化约束存在,

因此对们进行简单的“合并”,或者说“特征提取”。提取的方法是通过聚类方法将这些分布聚成 3 组,对 3 组分布求和

则新的概率密度函数只有 3 个维度,且三个变量之和恒为 1。这就相当于三维空间中的一个平面

则之前的 Perlin 噪声可以在这个空间中表示成如下平面。可见这些噪声基本上铺满了整个三角形空间,且越靠近中央其信息熵越高,这与之前的推论是一致的。

newplot (19).png
newplot (19).png
newplot (20).png
newplot (20).png

而如果信号分布过于接近,它们在整个空间中只会占据一小部分

newplot (21).png
newplot (21).png

下面选择一张实际的图,将它的行当作一些信号,则这些信号在概率空间中的分布如下,一般来讲,它们都会呈现出一定的形状,这些分布的形状就是 ML 领域要学到的东西。

newplot (22).png
newplot (22).png
newplot (23).png
newplot (23).png
newplot (24).png
newplot (24).png
Canaletto Regatta on Grand Canal detail.jpg
Canaletto Regatta on Grand Canal detail.jpg

分类:

后端

标签:

后端

作者介绍

张春成
V2