0%

信息熵

一. 熵

  1. 解释

    • 熵是不确定的度量
    • 熵是信息的度量
  2. 计算公式
    $$
    S = - \sum _{x} p(x)\log p(x) \tag{1}
    $$

    log可以取自然对数,也可以是以底为2的对数,任意大于1的底都是成立的。换底只不过换了信息的单位而已。

对于连续的概率分布,熵的定义为:
$$
S=- \int p(x) \log p (x)dx \tag{2}
$$

  1. 联合熵
    $$
    S[p(x,y)]=-\sum_{x} \sum_{y}p(x,y)\ln p(x,y) \tag{3}
    $$

  2. 条件熵
    $$
    S(Y|X)=S[p(x,y)] - S[p(x)] \tag{4}
    $$
    等价于:
    $$
    S(Y|X)=-\sum_{x} \sum_{y}p(x,y) \log p(y:x) \tag{5}
    $$
    通俗的说,本来的信息量有$$S[p(x,y)]$$ ,然后$$p(x)$$ 能带来$$S[p(x)]$$ 的信息,减去其不确定性,剩下的就是条件熵。

  3. 互信息

    互信息可以度量两个随机事件“相关性”的量化
    $$
    S(X;Y)=\sum_{x}\sum_{y}p(x,y)\log \frac{p(x,y)}{p(x)p(y)} \tag{6}
    $$

    互信息就是随机事件X,以及知道随机事件Y条件下的不确定性,或者条件熵之间的差异。即。
    $$
    S(X;Y)=S(X) -S(X|Y) \tag{7}
    $$

  4. 相对熵

    相对熵也是来衡量相关性,但和互信息不同,它用来衡量两个取值为正数的函数的相似性。
    $$
    KL(f(x)||g(x))=\sum_{x \in X}f(x)\cdot \log \frac {f(x)}{g(x)} \tag{8}
    $$

    • 对于两个完全相同的函数,他们的相对数为0
    • 相对熵越大,两个函数差异越大;反之,相对熵越小,两函数差异越小
    • 对于概率分布和概率密度分布,如果取值均大于0,相对熵可以度量两个随机分布的差异性

    相对熵是不对称的。
    $$
    KL(f(x)||g(x)) \ne KL(g(x)||f(x)) \tag{9}
    $$
    詹森和香农提出了一种相对熵的计算方法,将上面的不等式变为等式。
    $$
    JS(f(x)||g(x))=\frac{1}{2}[KL(f(x)||g(x))+KL(g(x)||f(x))] \tag{10}
    $$

二. 最大熵

当我们想要得到一个随机事件的概率分布时,如果没有足够的信息能够确定这个概率分布(可能是不能确定分布,也可能是知道分布的类型,但是还有若干个参数没有确定),那么最“保险”的方案就是选择使得熵最大的分布。