困惑度：模型有多惊讶

怎么衡量一个语言模型“好不好”？看它读句子时有多惊讶。模型每读到一个词，都会先预测它的概率：如果它早就料到这个词（给了高概率），就不惊讶；如果完全没想到（给了低概率），就很惊讶。把整句话每个词的“惊讶程度”平均一下、再取指数，就得到困惑度（perplexity）。它有个直观含义：模型平均像是在多少个词里瞎猜——困惑度 2 表示它基本在二选一，困惑度 500 表示它几乎在五百个词里乱蒙。困惑度越低，模型越好。切换不同水平的模型，看同一句话的困惑度差多少。

句子：“今天天气真不错”。蓝条是模型对每个词给出的概率（越高=越不惊讶）。下面是整句的困惑度。

—

预测越准越好

给真实出现的词的概率越高，惊讶越小，困惑度越低。

≈ 有效选择数

困惑度=模型平均在“多少个词里挑”，是它不确定性的直观刻度。

通用评测指标

语言模型最常用的评测之一，越低代表对语言建模得越好。