缩放定律

大模型为什么要拼命堆参数、堆数据、堆算力？因为有一条惊人稳定的规律：模型的损失（loss）会随着规模的增大按幂律平滑下降。把损失和规模都取对数画出来，竟是一条近乎笔直的线——这意味着，用几个小模型的结果，就能外推预测一个还没训练的大模型大概能到多低。拖动“模型规模”，看损失沿着这条线往下走。

横轴是模型规模（参数量，对数刻度），纵轴是损失（对数刻度）。绿点是几个已经训过的小模型，连成一条直线；虚线是外推到更大模型的预测。金线是怎么堆规模都突破不了的下限。

模型规模预测损失 —

幂律 ≈ 直线

损失 ≈ 下限 + A·规模^(−α)。把可降的那部分（损失减下限）取对数，是一条斜率 −α 的直线；总损失在贴近下限前也近乎笔直，之后逐渐变缓。

可外推预测

训几个小模型，就能预测大几个数量级的模型大概能到多低损失——省下大量试错。

有下限

存在一个不可约的损失下限（数据本身的噪声），无论怎么堆规模都突破不了。