双下降现象
经典理论说:模型越复杂,测试误差先降后升(偏差-方差权衡的 U 形曲线),所以别把模型做得太大。但深度学习时代发现了一件怪事——当模型继续变大、大到参数比数据还多之后,测试误差竟然第二次下降,甚至比之前的最低点还低!整条曲线长这样:降→升→再降。中间那个鼓包,正好出现在“参数量≈数据量”、模型刚好能把训练数据背得一字不差的地方。这就是双下降,它解释了为什么如今的超大模型“越大越好”,挑战了教科书的经典直觉。拖动“模型大小”,走一遍这条反常的曲线。
蓝线是训练误差(越大越能背,到阈值后≈0),红线是测试误差。金色虚线是“插值阈值”(参数≈数据量)——鼓包就在这里。注意红线最右端比中间的经典最低点还低。
经典 U(左半)
欠参数区:太小欠拟合、稍大刚好、再大方差变大——传统的偏差方差权衡。
插值阈值(鼓包)
参数≈数据量,模型勉强背下全部数据,最不稳定,测试误差冲到峰值。
第二次下降(右半)
过参数区:参数远超数据,反而找到更平滑的解,测试误差再降、常低于经典最优。