投机解码：小模型起草、大模型核验

大模型逐词生成很慢，因为每吐一个字都要把整个大模型跑一遍。投机解码用一个又快又小的“草稿模型”先一口气猜好几个字，再让大模型一次并行核验这几个字：从头开始对，猜对的全部采纳，遇到第一个猜错的就在那里纠正、丢掉后面，然后继续下一轮。猜得越准，一次大模型前向就能确定越多字——速度大涨，结果还和大模型逐字生成完全一致。点“下一轮”，看草稿被核验、采纳或纠正。

上面是最终确定的输出。下面每一轮：草稿模型提议 4 个字，大模型核验——绿=猜对采纳、红=第一个猜错、灰=被丢弃、金=大模型纠正/补的字。

—

小模型起草

便宜的草稿模型一次猜 K 个字，速度快但不一定都对。

大模型并行核验

大模型一次前向就能同时检查这 K 个字，采纳猜对的前缀。

又快又不走样

纠正机制保证最终输出和大模型逐字生成一模一样，只是用更少的前向次数。