可视化资源

量化

大模型动辄几百亿参数,每个权重若用 32 位浮点数(fp32)存,光是装下就要海量内存,跑起来也慢。量化的办法是:用更少的位数来表示权重——比如只用 8 位甚至 4 位整数。代价是精度:连续的权重被“吸附”到一个个离散的档位上,多少会有误差。位数越少,档位越粗、误差越大,但体积和速度的收益也越大。这是把大模型塞进手机、消费级显卡的关键一步。拖动位数,看权重怎么被吸附到网格上、误差和体积怎么变。

灰点是原始的连续权重,金色竖线是量化档位,蓝点是被吸附到最近档位后的权重,红线是吸附产生的误差。位数越少,档位越稀疏。

相对 fp32 的体积
更少位数 = 更小

fp32→int8 体积缩到 1/4,int4 缩到 1/8;显存、带宽、能耗都跟着降。

代价是精度

权重被吸附到离散档位,位数越少误差越大;太激进会让模型变笨。

常用 8 / 4 位

8 位几乎无损,4 位配合一些技巧也能用——这是大模型上端侧、消费级显卡的关键。