缩放定律
大模型为什么要拼命堆参数、堆数据、堆算力?因为有一条惊人稳定的规律:模型的损失(loss)会随着规模的增大按幂律平滑下降。把损失和规模都取对数画出来,竟是一条近乎笔直的线——这意味着,用几个小模型的结果,就能外推预测一个还没训练的大模型大概能到多低。拖动“模型规模”,看损失沿着这条线往下走。
横轴是模型规模(参数量,对数刻度),纵轴是损失(对数刻度)。绿点是几个已经训过的小模型,连成一条直线;虚线是外推到更大模型的预测。金线是怎么堆规模都突破不了的下限。
幂律 = 直线
损失 ≈ 下限 + A·规模^(−α)。取对数后是一条直线,斜率就是 −α。
可外推预测
训几个小模型,就能预测大几个数量级的模型大概能到多低损失——省下大量试错。
有下限
存在一个不可约的损失下限(数据本身的噪声),无论怎么堆规模都突破不了。