可视化资源

过拟合实验台

机器学习要的是学到规律'',而不是背下答案’‘。同一批数据,模型太简单会欠拟合''、抓不住趋势;太复杂又会过拟合’‘、把噪声也当成规律背下来。拖动下面的``模型复杂度’‘滑块,亲眼看看这条曲线怎样从太直、到刚好、再到扭成麻花。

蓝点是``训练数据''(带噪声)。金色曲线是模型拟合的结果,灰色虚线是背后真正的规律。右图是``考试成绩'':训练误差 vs 没见过的测试误差。

3

拟合情况

训练点 测试点 模型拟合 真实规律

误差随复杂度变化

训练误差 测试误差 竖线 = 当前复杂度
欠拟合(太简单)

复杂度太低,曲线连训练点的大趋势都跟不上,训练和测试误差都高。

恰到好处

曲线贴合数据又保持平滑,测试误差最低——这才是``学到规律''。

过拟合(太复杂)

曲线扭来扭去穿过每个训练点,把噪声也背了下来;训练误差几乎为零,测试误差却飙升。