熵、交叉熵与 KL 散度
这三个词是信息论的核心,也是几乎所有分类模型损失函数的根。熵衡量一个分布有多“不确定”(越接近均匀越大)。交叉熵衡量:用你预测的分布 Q 去编码真实分布 P 的数据,平均要花多少代价——Q 越偏离真实 P,代价越高。两者之差就是 KL 散度,专门量化“Q 离 P 有多远”,且 Q=P 时正好为 0。训练分类器,本质就是调 Q 让交叉熵(也就是 KL)最小。拖动下面预测分布的滑块,看三个量怎么变。
灰条是真实分布 P(这张图正确答案大概率是“猫”),蓝条是你的预测分布 Q(拖滑块调整)。让 Q 越贴近 P,交叉熵越小、KL 越接近 0。
—熵 H(P)
—交叉熵 H(P,Q)
—KL 散度
熵 = 不确定度
一个分布越接近均匀(什么都可能),熵越大;越确定(集中在一类),熵越小。
交叉熵 = 损失
预测 Q 离真实 P 越远,交叉熵越大。分类模型就是在最小化它。
KL = 交叉熵 − 熵
纯粹衡量 Q 与 P 的差距,Q=P 时为 0,永远 ≥ 0。