可视化资源

BPE:合并出子词

大模型不是按字、也不是按整词来切句子,而是切成子词——常见词整块、生僻词拆成小块。怎么决定切法?最常用的算法 BPE(字节对编码)很朴素:先把所有词拆成单个字符,然后反复找出现最频繁的相邻字符对,把它合并成一个新单元,再找下一个最频繁的对……合并几千上万次,高频组合(如 “ing”“est”)自然就长成了一个个子词。点“合并”,看一堆字符怎样一步步并成子词。

语料里 4 个词(右边数字是出现频次)。当前每个词的切分用方块表示;金色是这一步要合并的最高频相邻对。下方是已学到的合并规则。

0 次合并
从字符起步

初始词表就是所有单字符,任何词都能拼出来(不会有“未登录词”)。

贪心合并高频对

每步把最常一起出现的相邻对合成新单元,高频组合逐渐变成子词。

子词折中

常见词整块、生僻词拆小块——在“按字”和“按词”之间取得效率与覆盖的平衡。