可视化资源

词元化

大模型读不懂字'',它读的是词元’‘(token)——一段文字会先被切成一个个词元,模型再逐个处理。切法挺反直觉:常见词是一整块,生僻长词被拆成几片,每个汉字往往单独一块,连空格都算进词元里。这也解释了一个经典糗事:模型数不清``strawberry’‘里有几个 r——因为它压根没看见一个个字母。在下面输入文字,看它被切成什么。

下面是一个``示意版''分词器(非真实 GPT,但抓住了关键规律)。试试预设例子,或自己输入。

切成的词元(共 0 个)

常见词一整块

越常见的词越可能是单独一个词元;生僻或长的词被拆成几片(子词)。

汉字按字切

中文通常一个字一个词元,所以同样信息量,中文往往比英文占更多词元。

看不见字母

模型眼里``strawberry''是一两块词元,不是 10 个字母——所以让它数 r 常常出错。