早停:见好就收
训练神经网络时,训练得越久,它在训练集上的误差几乎总在下降——看起来越来越好。但这是假象:从某一刻起,模型开始死记硬背训练数据的噪声,在没见过的验证集上反而越来越差。把验证误差画出来,会是一条先降后升的 U 形曲线。聪明的做法是在 U 形谷底就停手——这叫早停:不是训得越久越好,而是“见好就收”。拖动滑块推进训练轮数,看两条曲线怎么分道扬镳。
蓝线是训练误差(一路降),红线是验证误差(先降后升)。金色虚线是验证误差最低点——就该在这里早停。再往后是过拟合区。
训练误差骗人
它几乎总在降,单看它你会以为越训越好——其实是开始背噪声了。
验证误差是真相
用没见过的数据衡量泛化。它的 U 形谷底,就是模型最会“举一反三”的时刻。
早停=免费正则
在谷底停手,不用改模型就避免了过拟合,还省了算力,几乎零成本。