LSTM 的门控记忆
普通 RNN 的记忆会随步数指数衰减,记不住远处。LSTM 的妙招是给隐藏单元加一条专门的细胞状态(像一条传送带),并用三道门来管它:遗忘门决定旧记忆保留多少、输入门决定新信息写入多少、输出门决定当前露出多少给外面。关键在遗忘门——当它接近 1、输入门接近 0 时,细胞状态几乎原样往下传(≈乘 1),于是一个早早存进去的值能跨越很多步保留不衰减,这正是普通 RNN 做不到的。下面在第 2 步存入一个值,调三道门,看记忆能撑多久。
第 2 步往细胞里存入一个值(红线处)。金线是细胞状态 C(记忆),蓝虚线是输出 h。调“遗忘门”看记忆是被守住还是漏光。
遗忘门:记多久
≈1 时细胞状态原样保留,记忆能跨越很多步不衰减;小了就漏光。
输入门:写多少
控制新信息写进细胞的比例,决定何时该更新记忆。
输出门:露多少
决定当前把多少记忆透露给外部输出 h,记忆可以“留着不用”。