可视化资源

top-k 与 top-p 采样

大模型每写一个字,其实是在一长串候选词上掷骰子。直接按概率随机抽,偶尔会抽到那些概率极低的“怪词”,让句子跑偏。于是要先把长尾“砍掉”再抽:top-k 只留概率最高的固定 k 个词;top-p(核采样)留下概率从高到低累加刚好够 p(比如 90%)的那一小撮——候选多少随上下文自动伸缩。砍完再重新归一化、抽样。配合“温度”,这是控制生成“稳重还是放飞”的核心旋钮。切换方式、拖动滑块,看保留了哪些词。

每根柱子是一个候选词的概率(已按高到低排好)。蓝色是保留进抽样池的词,灰色是被砍掉的长尾,红色虚线是 top-p 的累积分界。

4
top-k:固定个数

永远留 k 个。简单,但分布很尖时留太多、很平时留太少。

top-p:固定概率

留到累积概率够 p 为止,候选个数随上下文自动变多变少,更自适应。

砍掉长尾

都是为了去掉概率极低的“怪词”,让生成既不呆板也不胡来。