当前位置：首页 > news >正文

什么是信息熵，什么是交叉熵，什么是KL散度？

news 文章来源：https://blog.csdn.net/m0_60388871/article/details/143256195 2025/4/27 0:04:08

什么是信息熵？

信息熵（Entropy）是信息论中的一个基本概念，用来衡量一个随机变量不确定性的大小。它反映了对一个事件结果的预测难度，或者说是描述这个事件需要多少“信息量”。信息熵是由香农（Claude Shannon）提出的，信息熵的大小越高，代表事件结果的不确定性越大，反之则越小。

1. 信息熵的定义

给定一个离散的随机变量 $X$ ，它有 $n$ 个可能的取值（ $x_1, x_2, \dots, x_n$ ），每个取值的概率分别为 $p(x_1), p(x_2), \dots, p(x_n)$ 。则信息熵 $H (X)$ 的定义为：

$-\sum_{i=1}^n p(x_i) \log_2 p(x_i)$

其中：

$p(x_i)$ 表示事件 $x_i$ 发生的概率。
$log_2 p(x_i)$ 表示事件发生所带来的“信息量”，它是概率的负对数，概率越低，信息量越大。
信息熵的单位是比特（bit），在公式中使用对数底数为2。

2. 信息熵的直观解释

信息熵描述的是不确定性：如果一个事件的结果很确定，信息熵就会很小；如果事件的结果不确定性很高，则信息熵会较大。以抛硬币和掷骰子为例：

公平的硬币：抛硬币有两种可能结果（正面、反面），概率均为 0.5。此时信息熵为：

$\log_2 0.5 + 0.5 \log_2 0.5) = 1 \text{ 比特}$
也就是说对于这枚硬币，我们在没有额外信息的情况下是很难预测到底抛硬币后是正面朝上还是反面朝上。

不公平的硬币：如果硬币不公平，正面概率为 0.9，反面概率为 0.1。此时的信息熵较小，因为我们几乎可以预测结果（总是正面）。计算得：

$\log_2 0.9 + 0.1 \log_2 0.1) \approx 0.47 \text{ 比特}$

因此，不公平的硬币的信息熵小于公平硬币，这表明预测其结果的不确定性较低。这枚硬币相较于公平硬币而言，更容易猜出结果（肯定会首先猜测证明朝上），就说明紊乱程度低，自然信息熵就低。

3. 信息熵的特性

信息熵的几个重要特性包括：

非负性：信息熵总是非负的，且 $\geq 0$ 。当随机变量 $X$ 的结果完全确定时，信息熵 $H (X) = 0$ 。
最大化：对于一个有 $n$ 个可能取值的离散均匀分布，信息熵最大。也就是说，当每个事件的概率相等时，不确定性达到最大。例如，对于一个6面骰子，每个面出现的概率都是 $\frac{1}{6}$ ，此时信息熵最大。
加法性：对于多个独立事件，其联合熵为各个事件的熵的和。即如果 $X$ 和 $Y$ 是两个独立随机变量，那么 $H (X, Y) = H (X) + H (Y)$ 。

4. 信息熵的计算示例

假设有一个数据集 $D$ ，包含5个样本，用于预测某人是否会外出。其中有3个样本为“是”（外出），2个样本为“否”（不外出）。计算熵：

样本中“是”事件的概率： $\frac{3}{5}$
样本中“否”事件的概率： $\frac{2}{5}$
熵 $H (D)$ 的计算如下：

$\left( \frac{3}{5} \log_2 \frac{3}{5} + \frac{2}{5} \log_2 \frac{2}{5} \right)$

通过计算，得到：

$\approx 0.971 \text{ 比特}$

这表示在给定数据集 $D$ 的情况下，每次对“是否外出”进行预测时，大约需要 0.971 比特的信息来消除不确定性。

KL散度（Kullback-Leibler Divergence），也可以被叫做相对熵，是一种用于衡量两个概率分布之间差异的非对称度量。在信息论和机器学习中，KL散度广泛用于评估一个分布相对于另一个分布的“信息丢失”程度。或者也可以认为，KL散度用于衡量真实分布与近似分布之间的差异，或计算两个分布之间的信息距离。

什么是KL散度？

1. KL散度的定义

给定两个概率分布 $P$ 和 $Q$ ，其中 $P$ 通常是数据的真实分布， $Q$ 是用来近似 $P$ 的分布（例如模型分布或者预测分布），KL散度 $D_{KL}(P \parallel Q)$ 的数学表达式为：

$D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$

或对于连续分布，则为积分形式：

$D_{KL}(P \parallel Q) = \int P(x) \log \frac{P(x)}{Q(x)} \, dx$

其中：

$P (x)$ 和 $Q (x)$ 分别是两个分布在点 $x$ 的概率值。
$\log \frac{P(x)}{Q(x)}$ 表示 $P$ 相对于 $Q$ 的信息增益。（信息增益表示在某个条件下，数据的熵（不确定性）减少的量。）

2. KL散度的直观解释

KL散度可以理解为：在给定分布 $Q$ 的情况下，使用分布 $P$ 需要多大的“信息量”或“信息代价”来描述或编码数据。KL散度越大，表示分布 $P$ 和分布 $Q$ 越不相似。

例如：

当 $P$ 和 $Q$ 完全一致时，KL散度 $D_{KL}(P \parallel Q) = 0$ 。
当 $P$ 和 $Q$ 有明显差异时，KL散度会是一个较大的正值。
由于 KL 散度不对称，所以 $D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P)$ 。

3. KL散度的特性

非负性： $D_{KL}(P \parallel Q) \geq 0$ 。当且仅当 $P = Q$ 时， $D_{KL}(P \parallel Q) = 0$ 。这称为信息论中的 Gibbs 不等式。
非对称性：KL散度并不对称，即 $D_{KL}(P \parallel Q) \neq D_{KL}(Q \parallel P)$ 。这也意味着它不能作为真正的“距离度量”，因为距离度量一般要求对称性。
信息增益：KL散度度量的是当用分布 $Q$ 来替代分布 $P$ 时，信息的额外损失。它描述了我们在使用 $Q$ 来代替 $P$ 时，丢失的“信息量”。

4. KL散度的计算实例

假设有两个离散分布 $P$ 和 $Q$ ：

$P$ : $P (x = 1) = 0.4$ , $P (x = 2) = 0.6$
$Q$ : $Q (x = 1) = 0.5$ , $Q (x = 2) = 0.5$
KL散度计算如下：
$D_{KL}(P \parallel Q) = 0.4 \log \frac{0.4}{0.5} + 0.6 \log \frac{0.6}{0.5}$
通过计算可以得到：
$D_{KL}(P \parallel Q) = 0.4 \times (-0.263) + 0.6 \times 0.176 = -0.1052 + 0.1056 \approx 0.0004$
说明分布 $P$ 和 $Q$ 的差异很小。
其实就好比两个数字比较差异，我们会将他们相减，如果减出来=0说明二者相等，而KL散度就是把数字的差异放在了分布的差异上，两个分布（两个数字）差异性越大，那么KL散度（数字的差值）越大，代表二者越不相似。

什么是交叉熵？

讲完KL散度和信息熵，我们再引入交叉熵（Cross Entropy），它是用来度量两个概率分布之间的相似性的。在机器学习和深度学习中，交叉熵损失函数是用于分类任务的常用损失函数，通过计算真实分布和预测分布之间的差异，帮助模型更好地拟合数据。

1. 交叉熵的定义

给定两个概率分布 $P$ 和 $Q$ ：

$P$ 表示真实分布（例如，数据的标签分布）。
$Q$ 表示预测分布（例如，模型的输出概率分布）。
交叉熵 $H (P, Q)$ 的定义是：

$-\sum_{x} P(x) \log Q(x)$

在这个公式中：

$x$ 表示数据样本的取值。
$P (x)$ 是样本在真实分布中的概率。
$Q (x)$ 是样本在预测分布中的概率。
交叉熵度量了真实分布 $P$ 下观测到数据点时的“平均信息量”，而这种信息量是基于模型提供的预测分布 $Q$ 来计算的。交叉熵越小，表示 $Q$ 与 $P$ 越接近；交叉熵越大，表示 $Q$ 与 $P$ 越不接近。

2. 交叉熵与熵和KL散度的关系

交叉熵可以拆解为熵和KL散度之和：

$D_{KL}(P \parallel Q)$

其中：

$H (P)$ 是数据真实分布 $P$ 的熵，表示在真实分布下系统的不确定性。
$D_{KL}(P \parallel Q)$ 是KL散度，表示分布 $Q$ 相对于分布 $P$ 的“信息损失”或“信息差异”。
这说明交叉熵实际上是熵和KL散度的组合。当 $Q$ 和 $P$ 越接近时，KL散度 $D_{KL}(P \parallel Q)$ 越小，交叉熵也就越接近 $H (P)$ 的最小值。

3. 交叉熵在分类中的应用

在机器学习中，交叉熵损失函数用于二分类和多分类任务：

（1）二分类交叉熵

对于一个二分类问题，真实标签 $y$ 可以是0或1，模型的预测概率为 $\hat{y}$ ，则二分类的交叉熵损失为：

$\hat{y}) = -[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})]$

当真实标签 $y = 1$ 时，损失为 $-\log(\hat{y})$ ，即预测值 $\hat{y}$ 越接近1，损失越小。
当真实标签 $y = 0$ 时，损失为 $-\log(1 - \hat{y})$ ，即预测值 $\hat{y}$ 越接近0，损失越小。
这种损失函数逼迫模型输出的概率接近真实标签，从而提升模型的分类效果。

（2）多分类交叉熵

对于一个有 $k$ 类的多分类问题，使用 softmax 函数输出每个类别的概率预测 $\hat{y}_i$ ，真实标签用 one-hot 编码表示，交叉熵损失为：

$\hat{y}) = -\sum_{i=1}^k y_i \log(\hat{y}_i)$

其中 $y_i$ 是真实类别的 one-hot 编码（即正确类别对应的概率为1，其余类别为0）， $\hat{y}_i$ 是模型对第 $i$ 类的预测概率。

4. 交叉熵的直观理解

交叉熵可以理解为一个度量模型预测与真实标签之间相似度的指标。当模型预测接近真实分布 $P$ 时，交叉熵的值较小；当模型预测偏离真实分布 $P$ 时，交叉熵的值较大。因此，通过最小化交叉熵损失，模型能够更好地匹配真实标签的分布。

例如，在图像分类任务中：

如果图像真实类别为“猫”，且模型预测也为“猫”且概率接近1，则交叉熵损失较小，表明预测准确。
如果图像真实类别为“猫”，但模型预测为“狗”且概率较高，则交叉熵损失较大，表明预测不准确，模型需要优化。

5. 交叉熵的性质

非负性：交叉熵总是非负的。
最小化：交叉熵最小化目标就是让预测分布 $Q$ 尽量接近真实分布 $P$ 。
非对称性：交叉熵对 $P$ 和 $Q$ 的顺序敏感， $\neq H(Q, P)$ 。

交叉熵和KL散度都可以用于衡量两个概率分布之间差异，那到底有什么区别？

1. 定义和公式上的差异

交叉熵 $H (P, Q)$ ：
交叉熵衡量的是在真实分布 $P$ 下，使用预测分布 $Q$ 来编码数据所需要的信息量。其公式为：

$-\sum_{x} P(x) \log Q(x)$

KL散度 $D_{KL}(P \parallel Q)$ ：
KL散度表示的是真实分布 $P$ 与预测分布 $Q$ 之间的相对熵，或说 $Q$ 相对 $P$ 的信息损失。其公式为：

$D_{KL}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)}$

2. 数学关系

交叉熵和KL散度通过以下关系联系起来：

$D_{KL}(P \parallel Q)$

其中：

熵 $H (P)$ 是真实分布 $P$ 自身的熵，表示在没有近似分布时，描述数据本身所需的最少信息量。
KL散度 $D_{KL}(P \parallel Q)$ 表示的是用 $Q$ 替代 $P$ 带来的额外信息量。

因此，交叉熵可以看作是“熵 + KL散度”，即在使用分布 $Q$ 进行编码时所需要的额外信息量，而 KL散度单独度量的是使用 $Q$ 而非 $P$ 带来的信息丢失。

3. 意图和用途的差异

交叉熵用于度量模型的预测效果。它不仅仅关注两个分布的差异，而是考虑整个预测分布 $Q$ 对真实分布 $P$ 的匹配程度。交叉熵在模型训练时常用作损失函数，通过最小化交叉熵，使得模型输出的预测分布尽可能接近真实分布。
KL散度关注的是“差异性”本身，用于量化两个分布之间的“相对距离”或“信息损失”。它在变分推断、贝叶斯方法、信息理论等场景中广泛应用，以便衡量模型分布（如 $Q$ ）和目标分布（如 $P$ ）的相似性，帮助约束模型参数。

4. 总结

交叉熵：偏向实际模型的优化，通过衡量预测结果相对于真实标签的“信息量”来训练模型。
KL散度：偏向分析两个分布之间的差异性，用来度量模型分布与目标分布的接近程度，通常作为“相对差异”的参考指标。

总结一下：交叉熵更关注信息量的实际消耗，而KL散度更关注两个分布之间的相对信息损失。