信息论

呃呃呃

这玩意就是信息论课的内容了 以后更估计也就在这篇里面更了 大概


以下内容更新于2021-10-31


信息度量

离散信息度量

首先肯定是经典的各种符号约定,顺遍让我复习一哈LateX语法…

  • 随机事件:xx
  • 随机变量:XX
  • x=aix=a_i的概率Px(ai)P_x(a_i)
  • 联合概率:Pxy(ai,bj)P_{xy}(a_i,b_j)

自信息

事件集合X中x=aix=a_i的自信息

Ix(ai)=logPx(ai)I_x(a_i)=-logP_x(a_i)

I(x)=logp(x)I(x)=-logp(x)

底数可变

  • log2xlog_2x:比特
  • lnxlnx:奈特
  • log10xlog_{10}x:哈特

自信息的含义即

事件发生前的不确定性

事件发生后事件包含的信息量

联合自信息

即一些事件看作一个联合事件后计算自信息,概率为联合概率

IXY(ai,bj)=logPXY(ai,bj)I_{XY}(a_i,b_j)=-logP_{XY}(a_i,b_j)

I(xy)=logp(xy)I(xy)=-logp(xy)

xyxy视为一联合事件

条件自信息

即给定一些事件后,发生其他事件的自信息

Ixy(ai,bj)=logPXY(ai,bj)I_{x|y}(a_i,b_j)=-logP_{X|Y}(a_i,b_j)

I(xy)=logp(xy)I(x|y)=-logp(x|y)

因此有:

I(xy)=I(x)+I(yx)=I(y)+I(xy)I(xy)=I(x)+I(y|x)=I(y)+I(x|y)

综上

  • 自信息量表示一个/多个事件发生带给我们信息量的大小
  • 表示了确定一个/多个事件是否发生,所需要的信息量的大小
  • log2log_2情况下表示了表示出事件信息量所需要的二进制位的个数

互信息

  • 反映了两个事件之间的统计关联程度
  • 通信系统中,意义是输出端接受到某信息y后获得关于输入端某信息x的信息量

Ix;y(ai;bj)=logPX/Y(aibj)PX(ai)I_{x;y}(a_i;b_j)=log\frac{P_{X/Y}(a_i|b_j)}{P_X(a_i)}

I(x;y)=I(x)I(xy)I(x;y)=I(x)-I(x|y) //xx本身的不确定性减去由yy确定的xx的不确定性

I(x;y)=I(y;x)I(x;y)=I(y;x)


信息熵

离散信源X的熵定义位自信息的平均值,记为H(X)

H(X)=E[I(x)]H(X)=E[I(x)]

单位:比特/符号

表现一个信源的平均不确定性/平均信息量、H(x)H(x)大的随机性大、输出后解除信息不确定行需要的信息量。

条件熵

联合集XYXY上,条件自信息I(yx)I(y|x)均值

H(YX)=E[I(yx)]=xp(x)H(YX=x)H(Y|X)=E[I(y|x)]=\sum_{x}{p(x)H(Y|X=x)}

联合熵

联合集XYXY上,条件自信息I(xy)I(xy)均值

H(XY)=E[U(xy)]=xyp(xy)logp(xy)H(XY)=E[U(xy)]=-\sum_x\sum_yp(xy)logp(xy)

相对熵——信息散度

没懂。

不等式:11xlnxx11-\frac{1}{x}\leq lnx \leq x-1

熵的不增原理——条件熵不大于信息熵

H(YX)H(Y)H(Y|X)\leq H(Y)


信息熵基本性质

  • 对称性
  • 非负性
  • 确定性:集合中任意事件概率为1时,熵为0
  • 扩展性:小概率事件对熵影响很小可以忽略
  • 可加性:H(XY)=H(X)+H(YX)H(XY)=H(X)+H(Y|X)

熵的链原则:H(X1X2..XN)=H(X1)+H(X2X1)+...H(XNX1..XN1)H(X_1X_2..X_N)=H(X_1)+H(X_2|X_1)+...H(X_N|X_1..X_{N-1})

  • 极值性:集合中事件等概率发生时熵达到最大

平均互信息

Yx=ai集合Y与事件x=a_i间的互信息

I(x;Y)=xp(x)I(x;Y)I(x;Y)=\sum_xp(x)I(x;Y)

=x,yp(x)p(yx)logp(yx)p(y)=\sum_{x,y}p(x)p(y|x)log\frac{p(y|x)}{p(y)}

因此

XY集合X、Y间平均互信息

I(X;Y)=xp(x)I(x;Y)I(X;Y)=\sum_xp(x)I(x;Y)

  • 含义

    • 知道集合YY后,平均Y中一个事件消除掉的关于集合XX中一个事件的不确定性

    • 集合YY中一个事件平均能提供出的关于集合XX中一事件的信息量

    • 两个集合关系密切程度

  • 平均互信息与熵

    • I(X;Y)=H(X)H(XY)=H(Y)H(YX)=H(X)+H(Y)H(XY)I(X;Y)=H(X)-H(X|Y)=H(Y)-H(Y|X)=H(X)+H(Y)-H(XY)
  • 性质

    • 非负性
    • 互易性
    • 凸函数性: 为p(x)p(x)上凸函数