词元化
大模型读不懂字'',它读的是词元’‘(token)——一段文字会先被切成一个个词元,模型再逐个处理。切法挺反直觉:常见词是一整块,生僻长词被拆成几片,每个汉字往往单独一块,连空格都算进词元里。这也解释了一个经典糗事:模型数不清``strawberry’‘里有几个 r——因为它压根没看见一个个字母。在下面输入文字,看它被切成什么。
下面是一个``示意版''分词器(非真实 GPT,但抓住了关键规律)。试试预设例子,或自己输入。
切成的词元(共 0 个)
常见词一整块
越常见的词越可能是单独一个词元;生僻或长的词被拆成几片(子词)。
汉字按字切
中文通常一个字一个词元,所以同样信息量,中文往往比英文占更多词元。
看不见字母
模型眼里``strawberry''是一两块词元,不是 10 个字母——所以让它数 r 常常出错。