L1 与 L2 的几何（为什么 L1 稀疏）

正则化那一页告诉你 L1 会把一些权重压成 0、L2 不会——那是“结果”。这一页讲“为什么”，用几何就能看明白。把两个权重 w₁、w₂ 当成平面上的坐标：损失画成一圈圈套着的椭圆等高线，圆心是不加约束时的最优解 w*（一个偏离坐标轴的固定点）。正则化等价于把解限制在一个区域里——L2 是个圆，L1 是个菱形。带约束的解，就是这个区域上“损失最小”的那一点，也就是最小的椭圆第一次碰到区域边界的地方。菱形有四个尖角正好顶在坐标轴上，椭圆几乎总是先碰到尖角——那里有一个坐标恰好是 0，于是“稀疏”。圆没有尖角，碰到的是一段光滑弧，两个坐标都不为 0、只是一起缩小。拖动预算 t，切换 L1 / L2，看解落在哪。

金色五角星是不受约束的最优解 w*，蓝色区域是约束（圆=L2，菱形=L1），红点是受约束的解。看 L1 时红点怎么顶在菱形的尖角上、把一个权重压成 0。

预算 t（越小、正则越强） —

L2 = 圆

约束区域是圆，没有尖角。最小的椭圆碰到的是一段光滑圆弧，切点处两个坐标一般都不为 0——所有权重一起被缩小，但很少正好等于 0。

L1 = 菱形

约束区域是菱形，四个尖角正好落在坐标轴上。椭圆几乎总是先顶到尖角，而尖角上有一个坐标恰好是 0——这就是某个权重被精确压成 0 的几何原因。

所以 L1 做特征选择

解顶在尖角上 → 一批权重精确归零 → 对应特征被自动剔除。L1 因此天然产生稀疏解、自动挑特征；L2 只缩不删。