因果掩码
大模型是“自回归”生成的:从左往右,一个词一个词地往外蹦,每写一个都要预测“下一个最可能是什么”。但训练时整句话都摆在那儿——怎么保证模型预测某个位置时不偷看后面的答案?办法就是给注意力盖一张“因果掩码”:每个词只允许关注自己和它左边的词,右边(未来)的全部屏蔽。看看盖上和不盖的差别。
行 = 哪个词在看,列 = 它能看谁。打叉的斜纹格表示被掩码挡住(未来的词,不许看)。点某一行,看那个位置实际能注意到哪些词。
只能看左边
对角线及左下方允许,右上方(未来词)全部屏蔽,保证“预测下一个”时不偷看答案。
能并行训练
一句话所有位置可以同时算各自的预测,又互不偷看——训练飞快,这是 GPT 类模型的关键。
编码器不掩码
像 BERT 那样要“读懂整句”的编码器则不加掩码,每个词能看到全部上下文。