可视化资源

L1 与 L2 的几何(为什么 L1 稀疏)

正则化那一页告诉你 L1 会把一些权重压成 0、L2 不会——那是“结果”。这一页讲“为什么”,用几何就能看明白。把两个权重 w₁、w₂ 当成平面上的坐标:损失画成一圈圈套着的椭圆等高线,圆心是不加约束时的最优解 w*(一个偏离坐标轴的固定点)。正则化等价于把解限制在一个区域里——L2 是个,L1 是个菱形。带约束的解,就是这个区域上“损失最小”的那一点,也就是最小的椭圆第一次碰到区域边界的地方。菱形有四个尖角正好顶在坐标轴上,椭圆几乎总是先碰到尖角——那里有一个坐标恰好是 0,于是“稀疏”。圆没有尖角,碰到的是一段光滑弧,两个坐标都不为 0、只是一起缩小。拖动预算 t,切换 L1 / L2,看解落在哪。

金色五角星是不受约束的最优解 w*,蓝色区域是约束(圆=L2,菱形=L1),红点是受约束的解。看 L1 时红点怎么顶在菱形的尖角上、把一个权重压成 0。

L2 = 圆

约束区域是圆,没有尖角。最小的椭圆碰到的是一段光滑圆弧,切点处两个坐标一般都不为 0——所有权重一起被缩小,但很少正好等于 0。

L1 = 菱形

约束区域是菱形,四个尖角正好落在坐标轴上。椭圆几乎总是先顶到尖角,而尖角上有一个坐标恰好是 0——这就是某个权重被精确压成 0 的几何原因。

所以 L1 做特征选择

解顶在尖角上 → 一批权重精确归零 → 对应特征被自动剔除。L1 因此天然产生稀疏解、自动挑特征;L2 只缩不删。