稀疏自编码器
自编码器(autoencoder)是一种无监督模型:编码器把输入压成一层隐藏表示 h,解码器再只凭 h 把输入重构回来,训练目标就是“重构得越像越好”。稀疏自编码器多加一条约束——隐藏层可以很宽,但要求任一输入只点亮其中少数几个单元(其余压到 0,常用 L1 或 KL 惩罚实现)。这样每个常用单元会学成一个可复用的“特征”,少数特征叠加就能重建输入。下面用一组固定的“特征”(高斯基)演示:拖动稀疏强度,看活跃单元数与重构质量怎样此消彼长。
左图:灰色是输入信号,彩色线是重构(淡线是被激活的各个“特征”,相加就是重构)。右图:12 个隐单元的激活,金色虚线是稀疏阈值——只有超过它的少数单元(彩色)被保留参与重构,其余压成 0。
输入 vs 重构(解码)
隐层 h(12 单元,稀疏激活)
编码 → 解码
编码器把输入压成隐层激活 h,解码器只凭 h 重构输入;没有标签,靠“重构得像不像”自我监督。
稀疏约束
隐层可以很宽,但惩罚项逼大多数单元为 0——每个输入只激活少数几个,得到一份“瘦”编码。
学出可复用特征
真实模型会自己学出这些特征与稀疏阈值;少数特征叠加即可重建,还顺带滤掉冗余与噪声。