熵、交叉熵与 KL 散度

这三个词是信息论的核心，也是几乎所有分类模型损失函数的根。熵衡量一个分布有多“不确定”（越接近均匀越大）。交叉熵衡量：用你预测的分布 Q 去编码真实分布 P 的数据，平均要花多少代价——Q 越偏离真实 P，代价越高。两者之差就是 KL 散度，专门量化“Q 离 P 有多远”，且 Q=P 时正好为 0。训练分类器，本质就是调 Q 让交叉熵（也就是 KL）最小。拖动下面预测分布的滑块，看三个量怎么变。

灰条是真实分布 P（这张图正确答案大概率是“猫”），蓝条是你的预测分布 Q（拖滑块调整）。让 Q 越贴近 P，交叉熵越小、KL 越接近 0。

—熵 H(P)

—交叉熵 H(P,Q)

—KL 散度

熵 = 不确定度

一个分布越接近均匀（什么都可能），熵越大；越确定（集中在一类），熵越小。

交叉熵 = 损失

预测 Q 离真实 P 越远，交叉熵越大。分类模型就是在最小化它。

KL = 交叉熵 − 熵

纯粹衡量 Q 与 P 的差距，Q=P 时为 0，永远 ≥ 0。