双下降现象

经典理论说：模型越复杂，测试误差先降后升（偏差-方差权衡的 U 形曲线），所以别把模型做得太大。但深度学习时代发现了一件怪事——当模型继续变大、大到参数比数据还多之后，测试误差竟然第二次下降，甚至比之前的最低点还低！整条曲线长这样：降→升→再降。中间那个鼓包，正好出现在“参数量≈数据量”、模型刚好能把训练数据背得一字不差的地方。这就是双下降，它解释了为什么如今的超大模型“越大越好”，挑战了教科书的经典直觉。拖动“模型大小”，走一遍这条反常的曲线。

蓝线是训练误差（越大越能背，到阈值后≈0），红线是测试误差。金色虚线是“插值阈值”（参数≈数据量）——鼓包就在这里。注意红线最右端比中间的经典最低点还低。

模型大小 —

经典 U（左半）

欠参数区：太小欠拟合、稍大刚好、再大方差变大——传统的偏差方差权衡。

插值阈值（鼓包）

参数≈数据量，模型勉强背下全部数据，最不稳定，测试误差冲到峰值。

第二次下降（右半）

过参数区：参数远超数据，反而找到更平滑的解，测试误差再降、常低于经典最优。