大数定律
抛一枚硬币,正面概率是 0.6。只抛 5 次,可能 4 次正面(80%)也可能 1 次(20%),离 0.6 差得远。但只要一直抛下去,正面出现的比例会越来越稳地逼近 0.6。这就是大数定律:样本越多,频率越接近真实概率。它是“用频率估计概率”“多做实验更可靠”这些直觉的严格保证,也是为什么训练数据越多、统计越靠谱。点“开始抛”,看频率曲线怎么从剧烈抖动慢慢收敛到那条红线。
横轴是抛硬币的次数,纵轴是到目前为止正面出现的比例(频率)。红色虚线是真实概率。注意曲线一开始上下乱跳,越往后越贴着红线。
少量样本会骗人
抛几次,频率可能离真实概率很远——小样本的随机波动很大。
越多越准
随着次数增加,正负波动互相抵消,频率稳稳收敛到真实概率。
为什么重要
它让“用频率估计概率”“多做实验/多取数据更可靠”有了理论保证。