可视化资源

投机解码:小模型起草、大模型核验

大模型逐词生成很慢,因为每吐一个字都要把整个大模型跑一遍。投机解码用一个又快又小的“草稿模型”先一口气猜好几个字,再让大模型一次并行核验这几个字:从头开始对,猜对的全部采纳,遇到第一个猜错的就在那里纠正、丢掉后面,然后继续下一轮。猜得越准,一次大模型前向就能确定越多字——速度大涨,结果还和大模型逐字生成完全一致。点“下一轮”,看草稿被核验、采纳或纠正。

上面是最终确定的输出。下面每一轮:草稿模型提议 4 个字,大模型核验——绿=猜对采纳红=第一个猜错、灰=被丢弃、金=大模型纠正/补的字

小模型起草

便宜的草稿模型一次猜 K 个字,速度快但不一定都对。

大模型并行核验

大模型一次前向就能同时检查这 K 个字,采纳猜对的前缀。

又快又不走样

纠正机制保证最终输出和大模型逐字生成一模一样,只是用更少的前向次数。