词元化

大模型读不懂“字”，它读的是“词元”（token）——一段文字会先被切成一个个词元，模型再逐个处理。切法挺反直觉：常见词是一整块，生僻长词被拆成几片，每个汉字往往单独一块，连空格都算进词元里。这也解释了一个经典糗事：模型数不清“strawberry”里有几个 r——因为它压根没看见一个个字母。在下面输入文字，看它被切成什么。

下面是一个“示意版”分词器（非真实 GPT，但抓住了关键规律）。试试预设例子，或自己输入。

切成的词元（共 0 个）

常见词一整块

越常见的词越可能是单独一个词元；生僻或长的词被拆成几片（子词）。

汉字按字切

中文通常一个字一个词元，所以同样信息量，中文往往比英文占更多词元。

看不见字母

模型眼里“strawberry”是一两块词元，不是 10 个字母——所以让它数 r 常常出错。