正则化 L1 / L2

模型太灵活容易过拟合——把噪声也学进去，曲线扭得乱七八糟。正则化的办法是在损失里加一项“惩罚”，专门惩罚过大的权重，逼模型用更“克制”的参数去拟合。两种常见惩罚效果不同：L2 让所有权重一起按比例缩小、曲线变平滑；L1 则会把一部分权重直接压到 0，相当于自动做“特征选择”。拖动惩罚强度 λ，看曲线和下面的权重条怎么变。

金色是拟合曲线，灰虚线是背后的真实规律，蓝点是带噪训练数据。下面每根条是一个特征的权重——看 λ 变大时，L2 让它们一起缩，L1 把一些直接清零。

惩罚强度 λ —

各特征的权重

L2（岭回归）

惩罚权重的平方和，让所有权重一起平滑地变小，曲线更平缓，但很少正好为 0。

L1（套索）

惩罚权重的绝对值，会把不重要的权重直接压到 0——产生“稀疏”解，自动挑出有用特征。

都在防过拟合

λ 太小→过拟合（扭曲），太大→欠拟合（过平），中间有个最佳点。