下一词预测
大模型写字,归根到底是在反复做一件事:根据已经写出的词,预测下一个词最可能是什么,然后接上去。这里用一个最简单的“二元(bigram)”语言模型演示——它只看前一个词,从读过的小语料里统计出下一个词的概率分布。点候选词手动接,或让它自动续写。你会发现:模型只是在“按概率接龙”,语料一小,就容易跑题、重复、说车轱辘话。
下面这句是模型正在写的话,最后一个高亮词是当前的“上文”。右边是模型预测的下一个词及其概率(从一小段语料里统计来的)。点候选词接上,或让它自己写。
正在生成
下一个词的概率(点选可接上)
只是接龙
每一步都在“给定上文,下一个词的概率”里挑一个——没有计划,全靠统计。
只看前一个词
bigram 的“记忆”只有一个词,所以容易跑题、绕圈。真实大模型看的上文长得多。
语料决定一切
它只会说语料里见过的搭配;语料越大越多样,说得越通顺。