可视化资源

正则化 L1 / L2

模型太灵活容易过拟合——把噪声也学进去,曲线扭得乱七八糟。正则化的办法是在损失里加一项“惩罚”,专门惩罚过大的权重,逼模型用更“克制”的参数去拟合。两种常见惩罚效果不同:L2 让所有权重一起按比例缩小、曲线变平滑;L1 则会把一部分权重直接压到 0,相当于自动做“特征选择”。拖动惩罚强度 λ,看曲线和下面的权重条怎么变。

金色是拟合曲线,灰虚线是背后的真实规律,蓝点是带噪训练数据。下面每根条是一个特征的权重——看 λ 变大时,L2 让它们一起缩,L1 把一些直接清零。

各特征的权重

L2(岭回归)

惩罚权重的平方和,让所有权重一起平滑地变小,曲线更平缓,但很少正好为 0。

L1(套索)

惩罚权重的绝对值,会把不重要的权重直接压到 0——产生“稀疏”解,自动挑出有用特征。

都在防过拟合

λ 太小→过拟合(扭曲),太大→欠拟合(过平),中间有个最佳点。