可视化资源

权重初始化

训练前,网络的权重得先随机赋个初值——这一步看似不起眼,却能决定网络“生死”。信号在前向传播时,每过一层就被权重缩放一次:如果初始权重整体偏大,信号一层层放大,到深处就爆炸;偏小则一层层缩小,到深处消失。两种都让网络没法训。Xavier / He 初始化的诀窍,是按每层的宽度把权重缩放到“不大不小”,让信号的强度(方差)逐层保持稳定。拖动权重尺度,看信号穿过 18 层后是爆、是没、还是稳。

纵轴是信号强度(标准差,对数刻度),横轴是层数。绿色虚线是“稳定”水平。看曲线穿过深层时是冲上天、跌到底、还是平稳。

1.00
太大 → 爆炸

每层放大一点,深层信号指数级冲高,梯度也跟着爆,训练直接发散。

太小 → 消失

每层缩小一点,深层信号趋近 0,梯度也消失,底层学不动。

恰好 → 稳定

Xavier/He 按层宽缩放权重,让信号方差逐层不变——深层网络才训得起来。