下一词预测

大模型写字，归根到底是在反复做一件事：根据已经写出的词，预测下一个词最可能是什么，然后接上去。这里用一个最简单的“二元（bigram）”语言模型演示——它只看前一个词，从读过的小语料里统计出下一个词的概率分布。点候选词手动接，或让它自动续写。你会发现：模型只是在“按概率接龙”，语料一小，就容易跑题、重复、说车轱辘话。

下面这句是模型正在写的话，最后一个高亮词是当前的“上文”。右边是模型预测的下一个词及其概率（从一小段语料里统计来的）。点候选词接上，或让它自己写。

正在生成

下一个词的概率（点选可接上）

只是接龙

每一步都在“给定上文，下一个词的概率”里挑一个——没有计划，全靠统计。

只看前一个词

bigram 的“记忆”只有一个词，所以容易跑题、绕圈。真实大模型看的上文长得多。

语料决定一切

它只会说语料里见过的搭配；语料越大越多样，说得越通顺。