学习曲线：该加数据还是加模型

模型效果不好，你的第一反应该是“再标注一万条数据”，还是“换个更大的模型”？盲目堆哪一个都可能白烧钱。学习曲线给了一张诊断图：固定模型，把训练集从小到大慢慢喂，画出训练误差和验证误差随数据量怎么变。两条线收成什么形状，直接告诉你病根在哪——是数据不够，还是模型太弱。拖动“模型复杂度”，看这张图的形状如何翻转。

横轴是训练集大小 m。红线是训练误差，青线是验证误差（在一份固定的干净数据上算）。数据越多越难“背”，训练误差升；学到的规律越靠谱，验证误差降。金色阴影是两者的差距。

模型复杂度（多项式次数） 1 数据噪声 0.13

学习曲线：误差 vs 训练集大小

读数

验证误差地板（m = 40 处）—

验证误差降了多少（小 m → 大 m）—

小数据时的差距（验证 − 训练）—

验证误差还在降吗—

验证误差降得多 + 还在降 → 加数据有用；
很快收平、卡在高处 → 加数据没用，要换更强的模型。

高偏差 / 欠拟合

两条线很快收到一起，却一起卡在高处下不来。模型表达力不够，再喂多少数据都没用——该换更强的模型。

高方差 / 过拟合

训练误差贴地、验证误差高悬，中间一道大缝。但验证误差随数据量一直在降——再加数据真能补上这道缝。

先看形状，再花钱

同一份不满意的结果，曲线的形状决定你该往“数据”还是“模型”那边砸钱，而不是凭感觉两边都试。