网络信息论课程期末笔记

第一章 引论

1.1 通信系统模型

  1. 通信系统的模型可以概括为下面这一张图:
  2. 信息、消息、信号三者之间的关系:
    • 信息:系统中传送的对象,包含在消息中。
    • 消息:比较具体的概念,如语言、文字、数字、图像等。
    • 信号:表示消息的物理量。

1.2 香农信息论的中心问题

  1. 香农信息论的基本任务是:为设计有效而可靠的通信系统提供理论基础。
  2. 通信的基本目的是:在接收端精确地或以给定的失真度重现信源的输出。
  3. 信源编码器的作用是:根据失真度准则对信源的输出进行划分,给每一类以不同的表示,即码字。
  4. 信源译码器的任务是:根据收到的信源表示恢复出信源所属的类。

1.3 香农信息论的局限性

1.4 信息的广义性

第二章 信息量和熵

2.1 离散变量的非平均信息量

  1. 信息应当是先验概率和后验概率的函数。
  2. 互信息量的定义式为:$$I\left(x_{k} ; y_{i}\right)=\log _{a} \frac{P\left(x_{k} | y_{j}\right)}{Q\left(x_{k}\right)}$$
  3. 自信息量定义式中对数的底a可以任意的选择,不同的底决定不同的信息量单位。以2为底时信息的单位称作比特(bit),以“e”为底时的单位称作奈特(nat)。
  4. 事件之间之所以有互信息量是因为两个事件$x_k$和$y_j$之间统计相关。
  5. 两个事件之间的互信息量可正可负,也可能为0。
  6. 3个事件集的条件互信息量定义式为:$$I\left(u_{1} ; u_{2} | u_{3}\right)=\log \frac{P\left(u_{1} | u_{2}, u_{3}\right)}{P\left(u_{1} | u_{3}\right)}=\log \frac{P\left(u_{1}, u_{2} | u_{3}\right)}{P\left(u_{1} | u_{3}\right) P\left(u_{2} | u_{3}\right)}$$
  7. 互信息量的可加性公式为:$$I\left(u_{1} ; u_{2}, u_{3}\right)=I\left(u_{1} ; u_{3}\right)+I\left(u_{1} ; u_{2} | u_{3}\right)$$
  8. 自信息量的定义式为:$$I\left(x_{k}\right)=\log \frac{1}{Q\left(x_{k}\right)}=-\log Q\left(x_{k}\right)$$
  9. 任何两个事件之间的互信息量不可能大于其中任一事件的自信息量。
  10. 自信息量是非负的。
  11. 自信息量可以理解为事件$x_i$先验不确定性的大小。
  12. 条件自信息量的定义式为:$$I\left(u_{1} | u_{2}\right)=-\log P\left(u_{1} | u_{2}\right)$$
  13. 联合自信息量的定义式为:$$I(x, y)=-\log P(x, y)$$
  14. 联合自信息量、条件自信息量和自信息量之间的关系式为:$$I\left(x_{k} ; y_{j}\right)=I\left(x_{k}\right)-I\left(x_{k} | y_{j}\right)$$

2.2 离散集的平均自信息量——熵

2.2.1 熵和条件熵

  1. 集${X,Q(x)}$上定义的自信息量$I(x)$的数学期望被称作集X的平均自信息量,又称作集X的信息熵,简称熵,公式如下:$$H(X)=E[I(x)]=\sum_{x \in X} Q(x) I(x)=-\sum Q(x) \log Q(x)$$
  2. 条件平均自信息量的定义式为:$$\begin{aligned} H(X | y) &=\sum_{x} P(x | y) I(x | y) \ &=-\sum_{x} P(x | y) \log P(x | y) \end{aligned}$$
  3. 条件熵的定义式为:$$\begin{aligned} H(X | Y) &=E[H(X | y)]=\sum_{x} \Omega(y) H(X | y)\ &=\sum_{x} \sum_{y} P(x, y) \log P(x | y) \end{aligned}$$
  4. 联合熵的定义式:$$\begin{aligned} H(X, Y) &=E[I(x, y)]=\sum_{x} \sum_{y} P(x, y) I(x, y) \ &=-\sum_{x} \sum_{y} P(x, y) \log P(x, y) \end{aligned}$$
  5. 根据熵的扩展性,一个事件的概率若和其他时间的概率相比时很小,它对于集的熵值的贡献就可以忽略不计。

    2.2.2 熵的性质

    2.2.3 相对熵和条件相对熵

  6. 相对熵可以用来度量两个概率分布P(x)和Q(x)的距离。
  7. 相对熵的定义式为:$$D(P||Q)=\sum_{x \in X} P(x) \log \frac{P(x)}{Q(x)}$$
  8. 相对熵也被称为信息散度或KL距离,与通常的距离定义不同,他是不对称的。
  9. 条件相对熵定义式为:$$D(P(y | x) | Q(y | x))=\sum_{x} P(x) \sum_{y} P(y | x) \log \frac{P(y | x)}{Q(y | x)}$$

2.4 离散集的平均互信息量

  1. 平均互信息量的定义式为:$$I(X ; Y) \stackrel{\text { def }}{\longrightarrow} E_{X Y}[I(x ; y)]=\sum_{x} \sum_{y} P(x, y) \log \frac{P(x | y)}{P(x)}$$
  2. 平均互信息量还可以写成(X,Y)的联合分布P(X,Y)和他们乘积分布P(x)P(y)的相对熵:$$I(X ; Y)=D(P(x, y) | P(x) P(y))$$

2.5 信息不等式

2.5.1 凸函数及其性质

  1. 若一个K维矢量$\alpha=(\alpha_1 , \alpha_2,···,\alpha_K)$的所有分量为非负的,且和为1,即$$\sum_{k=1}^{K} a_{k}=1$$,就称$\alpha$为概率矢量。
  2. 如果函数$f(x)$的二阶导数是处处非负(正)的,则$f(x)$是凸$\cup$(严格凸$\cup$)的。

2.5.2 K-T条件

  1. 凸函数最大值存在的充分必要条件由K-T条件定理给出。
  2. 令$f(\alpha)$是定义域R上的凸$\cap$函数,其中$\alpha=(\alpha_1,\alpha_2,···,\alpha_K)$为一概率矢量。假定偏导数$\partial f(\boldsymbol{\alpha}) / \partial \boldsymbol{\alpha}_{k}$存在且在R域上连续,则$f(\alpha)$在R上为极大的充分必要条件是:$$\frac{\partial f(\boldsymbol{\alpha})}{\partial \boldsymbol{\alpha}_{k}}=\lambda,对所有\alpha_k >0$$$$\frac{\partial f(\boldsymbol{\alpha})}{\partial \boldsymbol{\alpha}_{k}}\leq\lambda,对所有\alpha_k =0$$

2.5.3 信息不等式

  1. 基础不等式:对于任意$x>0$,有$$\ln x \leq x-1$$等号成立当且仅当$x=1$。
  2. Jensen不等式:如果$f$为一凸$\cup$函数,而$X$是一个随机变量,则有$E f(X) \geqslant f(E X)$,其中$E X=\sum_{x \in X} p(x) x$是$X$的数学期望。
  3. 信息散度不等式:$$D(p||q)\ge 0$$,等号成立当且仅当对所有的x,有$p(x)=q(x)$。
  4. 互信息量不等式:$$I(X;Y)\ge 0$$
  5. 最大离散熵定理:$$H(X)\le \log |X|$$
  6. 条件降低熵:$$H(X|Y)\le H(X)$$

2.6 相对熵、熵和互信息量的凸性

  1. 相对熵、熵、互信息量等信息度量都是凸函数,因此存在相应的最大值和最小值。

2.7 连续随机变量的互信息量和微分熵

2.7.1 连续随机变量的互信息量

  1. 连续事件的互信息量定义为:$$I(x ; y)=\lim _{\Delta x \rightarrow 0 \atop \Delta y \rightarrow 0} \frac{p_{X Y}(x, y) \Delta x \Delta y}{p_{X}(x) \Delta x p_{Y}(y) \Delta y}=\log \frac{p_{X Y}(x, y)}{p_{X}(x) p_{Y}(y)}$$
  2. 连续集X和Y之间的平均互信息量定义为:$$I(X ; Y)=\iint_{-\infty}^{\infty} p_{X Y}(x, y) \log \frac{p_{X Y}(x, y)}{p_{X}(x) p_{Y}(y)} \mathrm{d} x \mathrm{d} y$$
  3. 微分熵的定义式为:$$H_{\mathrm{C}}(X)=-\int_{-\infty}^{\infty} p_{X}(x) \log p_{X}(x) \mathrm{d} x$$
  4. 连续变量的微分熵与离散熵的不同点除了它的值可取负值外,它在变换下取值
0%