可视化资源

学习曲线:该加数据还是加模型

模型效果不好,你的第一反应该是“再标注一万条数据”,还是“换个更大的模型”?盲目堆哪一个都可能白烧钱。学习曲线给了一张诊断图:固定模型,把训练集从小到大慢慢喂,画出训练误差和验证误差随数据量怎么变。两条线收成什么形状,直接告诉你病根在哪——是数据不够,还是模型太弱。拖动“模型复杂度”,看这张图的形状如何翻转。

横轴是训练集大小 m红线是训练误差,青线是验证误差(在一份固定的干净数据上算)。数据越多越难“背”,训练误差升;学到的规律越靠谱,验证误差降。金色阴影是两者的差距

1 0.13

学习曲线:误差 vs 训练集大小

读数

验证误差地板(m = 40 处)
验证误差降了多少(小 m → 大 m)
小数据时的差距(验证 − 训练)
验证误差还在降吗
验证误差降得多 + 还在降 → 加数据有用
很快收平、卡在高处 → 加数据没用,要换更强的模型
高偏差 / 欠拟合

两条线很快收到一起,却一起卡在高处下不来。模型表达力不够,再喂多少数据都没用——该换更强的模型。

高方差 / 过拟合

训练误差贴地、验证误差高悬,中间一道大缝。但验证误差随数据量一直在降——再加数据真能补上这道缝。

先看形状,再花钱

同一份不满意的结果,曲线的形状决定你该往“数据”还是“模型”那边砸钱,而不是凭感觉两边都试。