困惑度:模型有多惊讶
怎么衡量一个语言模型“好不好”?看它读句子时有多惊讶。模型每读到一个词,都会先预测它的概率:如果它早就料到这个词(给了高概率),就不惊讶;如果完全没想到(给了低概率),就很惊讶。把整句话每个词的“惊讶程度”平均一下、再取指数,就得到困惑度(perplexity)。它有个直观含义:模型平均像是在多少个词里瞎猜——困惑度 2 表示它基本在二选一,困惑度 500 表示它几乎在五百个词里乱蒙。困惑度越低,模型越好。切换不同水平的模型,看同一句话的困惑度差多少。
句子:“今天 天气 真 不错”。蓝条是模型对每个词给出的概率(越高=越不惊讶)。下面是整句的困惑度。
预测越准越好
给真实出现的词的概率越高,惊讶越小,困惑度越低。
≈ 有效选择数
困惑度=模型平均在“多少个词里挑”,是它不确定性的直观刻度。
通用评测指标
语言模型最常用的评测之一,越低代表对语言建模得越好。