量化

大模型动辄几百亿参数，每个权重若用 32 位浮点数（fp32）存，光是装下就要海量内存，跑起来也慢。量化的办法是：用更少的位数来表示权重——比如只用 8 位甚至 4 位整数。代价是精度：连续的权重被“吸附”到一个个离散的档位上，多少会有误差。位数越少，档位越粗、误差越大，但体积和速度的收益也越大。这是把大模型塞进手机、消费级显卡的关键一步。拖动位数，看权重怎么被吸附到网格上、误差和体积怎么变。

灰点是原始的连续权重，金色竖线是量化档位，蓝点是被吸附到最近档位后的权重，红线是吸附产生的误差。位数越少，档位越稀疏。

位数 bits —

相对 fp32 的体积—

更少位数 = 更小

fp32→int8 体积缩到 1/4，int4 缩到 1/8；显存、带宽、能耗都跟着降。

代价是精度

权重被吸附到离散档位，位数越少误差越大；太激进会让模型变笨。

常用 8 / 4 位

8 位几乎无损，4 位配合一些技巧也能用——这是大模型上端侧、消费级显卡的关键。