概率校准：模型说的90%靠谱吗

模型不只给答案，还给一个“把握”——“我有90%的把握这是猫”。可这个90%能信吗？一个校准良好的模型，凡是它说90%把握的那些预测，约90%真的对；说60%的，约60%对。把预测按把握分桶，横轴画“平均把握”、纵轴画“实际正确率”，校准完美就落在对角线上。可惜现代神经网络几乎都过度自信：点全在对角线下方——嘴上90%，实际只有70%。有个出奇简单的修法叫温度缩放：把打分（logit）统统除以一个温度 T，就能把曲线拉回对角线。拖动温度试试。

600 个二分类样本，原始模型（T=1）把话说得太满。横轴是模型的平均把握，纵轴是这一桶里真正答对的比例：蓝点落在虚线对角线下方，就说明它过度自信。调大温度，看点怎么爬回对角线、ECE 怎么变小。

温度 T 1.00 ECE = —

可靠性图（reliability diagram）

低温 / 原始 → 过度自信

T≤1 时打分被放大，模型把话说太满，点落在对角线下方：说90%，实际只对70%。ECE 大。

调大温度 → 校准回对角线

除以一个合适的 T，把过满的概率往 0.5 拉平，点贴回对角线，ECE 降到最低。

温度再大 → 又欠自信

T 过头，概率被压得太平，点跑到对角线上方，变成不敢下判断，ECE 又升回去。