Dropout

防过拟合有个反直觉却极有效的招：训练时每一步都随机“关掉”一部分神经元（让它们的输出暂时变 0）。这样网络就不能死记硬背、也不能过度依赖某几个神经元——它被迫学会用各种残缺的子网络也能把活干好，相当于同时训练了海量个略有不同的小网络。到了测试时再把所有神经元打开，效果就像这些子网络的“集体投票”，更稳、更不容易过拟合。点“换一批”，看每次关掉的是不同的神经元。

绿色是输入/输出层，蓝色是隐藏神经元。训练时每步随机把一些隐藏神经元变灰（关掉），它们的连线也跟着断开。每一批都是一张不同的“残缺网络”。

丢弃率0.40

逼出冗余

随时可能被关掉，神经元就不能互相过度依赖，每个都得学到有用的东西。

像训练一群网络

每批是一张不同的子网络，等于同时训练指数级多个网络并共享参数。

测试时全开

预测时打开全部神经元（输出按比例缩放），相当于子网络们的平均投票。