top-k 与 top-p 采样

大模型每写一个字，其实是在一长串候选词上掷骰子。直接按概率随机抽，偶尔会抽到那些概率极低的“怪词”，让句子跑偏。于是要先把长尾“砍掉”再抽：top-k 只留概率最高的固定 k 个词；top-p（核采样）留下概率从高到低累加刚好够 p（比如 90%）的那一小撮——候选多少随上下文自动伸缩。砍完再重新归一化、抽样。配合“温度”，这是控制生成“稳重还是放飞”的核心旋钮。切换方式、拖动滑块，看保留了哪些词。

每根柱子是一个候选词的概率（已按高到低排好）。蓝色是保留进抽样池的词，灰色是被砍掉的长尾，红色虚线是 top-p 的累积分界。

k4 —

top-k：固定个数

永远留 k 个。简单，但分布很尖时留太多、很平时留太少。

top-p：固定概率

留到累积概率够 p 为止，候选个数随上下文自动变多变少，更自适应。

砍掉长尾

都是为了去掉概率极低的“怪词”，让生成既不呆板也不胡来。