集成学习：平均的力量

一棵深决策树很容易“想太多”——它把训练数据的噪声也学了进去，预测曲线抖来抖去（高方差）。但有个神奇的办法：多训练几棵这样的树，每棵看数据的一个随机子集，最后把它们的预测一平均。单棵抖得厉害，可它们的“抖”方向各不相同，一平均就互相抵消，结果又平滑又稳——这就是 Bagging（随机森林的核心）。拖动“模型个数”，看一堆杂乱的细线怎样平均出一条干净的金线。

蓝点是带噪声的训练数据，灰色虚线是背后的真实规律。每条淡蓝细线是一个高方差弱模型（看了数据的随机子集），金线是它们的平均。

模型个数1 —

弱模型高方差

单棵深树对数据子集很敏感，换批数据就给出很不一样的预测，曲线抖动大。

平均抵消抖动

各模型的随机误差方向不同，平均后互相抵消，方差按约 1/M 下降。

随机森林

就是这招：很多棵随机树投票/平均，简单却极强，是最常用的集成方法之一。