一. 熵
解释
- 熵是不确定的度量
- 熵是信息的度量
计算公式
$$
S = - \sum _{x} p(x)\log p(x) \tag{1}
$$log可以取自然对数,也可以是以底为2的对数,任意大于1的底都是成立的。换底只不过换了信息的单位而已。
对于连续的概率分布,熵的定义为:
$$
S=- \int p(x) \log p (x)dx \tag{2}
$$
联合熵
$$
S[p(x,y)]=-\sum_{x} \sum_{y}p(x,y)\ln p(x,y) \tag{3}
$$条件熵
$$
S(Y|X)=S[p(x,y)] - S[p(x)] \tag{4}
$$
等价于:
$$
S(Y|X)=-\sum_{x} \sum_{y}p(x,y) \log p(y:x) \tag{5}
$$
通俗的说,本来的信息量有$$S[p(x,y)]$$ ,然后$$p(x)$$ 能带来$$S[p(x)]$$ 的信息,减去其不确定性,剩下的就是条件熵。互信息
互信息可以度量两个随机事件“相关性”的量化
$$
S(X;Y)=\sum_{x}\sum_{y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)} \tag{6}
$$互信息就是随机事件X,以及知道随机事件Y条件下的不确定性,或者条件熵之间的差异。即。
$$
S(X;Y)=S(X) -S(X|Y) \tag{7}
$$相对熵
相对熵也是来衡量相关性,但和互信息不同,它用来衡量两个取值为正数的函数的相似性。
$$
KL(f(x)||g(x))=\sum_{x \in X}f(x)\cdot \log \frac {f(x)}{g(x)} \tag{8}
$$- 对于两个完全相同的函数,他们的相对数为0
- 相对熵越大,两个函数差异越大;反之,相对熵越小,两函数差异越小
- 对于概率分布和概率密度分布,如果取值均大于0,相对熵可以度量两个随机分布的差异性
相对熵是不对称的。
$$
KL(f(x)||g(x)) \ne KL(g(x)||f(x)) \tag{9}
$$
詹森和香农提出了一种相对熵的计算方法,将上面的不等式变为等式。
$$
JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x))+KL(g(x)||f(x))] \tag{10}
$$
二. 最大熵
当我们想要得到一个随机事件的概率分布时,如果没有足够的信息能够确定这个概率分布(可能是不能确定分布,也可能是知道分布的类型,但是还有若干个参数没有确定),那么最“保险”的方案就是选择使得熵最大的分布。