概率校准:模型说的90%靠谱吗
模型不只给答案,还给一个“把握”——“我有90%的把握这是猫”。可这个90%能信吗?一个校准良好的模型,凡是它说90%把握的那些预测,约90%真的对;说60%的,约60%对。把预测按把握分桶,横轴画“平均把握”、纵轴画“实际正确率”,校准完美就落在对角线上。可惜现代神经网络几乎都过度自信:点全在对角线下方——嘴上90%,实际只有70%。有个出奇简单的修法叫温度缩放:把打分(logit)统统除以一个温度 T,就能把曲线拉回对角线。拖动温度试试。
600 个二分类样本,原始模型(T=1)把话说得太满。横轴是模型的平均把握,纵轴是这一桶里真正答对的比例:蓝点落在虚线对角线下方,就说明它过度自信。调大温度,看点怎么爬回对角线、ECE 怎么变小。
可靠性图(reliability diagram)
低温 / 原始 → 过度自信
T≤1 时打分被放大,模型把话说太满,点落在对角线下方:说90%,实际只对70%。ECE 大。
调大温度 → 校准回对角线
除以一个合适的 T,把过满的概率往 0.5 拉平,点贴回对角线,ECE 降到最低。
温度再大 → 又欠自信
T 过头,概率被压得太平,点跑到对角线上方,变成不敢下判断,ECE 又升回去。