过拟合实验台
机器学习要的是学到规律'',而不是背下答案’‘。同一批数据,模型太简单会欠拟合''、抓不住趋势;太复杂又会过拟合’‘、把噪声也当成规律背下来。拖动下面的``模型复杂度’‘滑块,亲眼看看这条曲线怎样从太直、到刚好、再到扭成麻花。
蓝点是``训练数据''(带噪声)。金色曲线是模型拟合的结果,灰色虚线是背后真正的规律。右图是``考试成绩'':训练误差 vs 没见过的测试误差。
拟合情况
训练点
测试点
模型拟合
真实规律
误差随复杂度变化
训练误差
测试误差
竖线 = 当前复杂度
欠拟合(太简单)
复杂度太低,曲线连训练点的大趋势都跟不上,训练和测试误差都高。
恰到好处
曲线贴合数据又保持平滑,测试误差最低——这才是``学到规律''。
过拟合(太复杂)
曲线扭来扭去穿过每个训练点,把噪声也背了下来;训练误差几乎为零,测试误差却飙升。