因果掩码

大模型是“自回归”生成的：从左往右，一个词一个词地往外蹦，每写一个都要预测“下一个最可能是什么”。但训练时整句话都摆在那儿——怎么保证模型预测某个位置时不偷看后面的答案？办法就是给注意力盖一张“因果掩码”：每个词只允许关注自己和它左边的词，右边（未来）的全部屏蔽。看看盖上和不盖的差别。

行 = 哪个词在看，列 = 它能看谁。打叉的斜纹格表示被掩码挡住（未来的词，不许看）。点某一行，看那个位置实际能注意到哪些词。

盖上因果掩码点一行试试

只能看左边

对角线及左下方允许，右上方（未来词）全部屏蔽，保证“预测下一个”时不偷看答案。

能并行训练

一句话所有位置可以同时算各自的预测，又互不偷看——训练飞快，这是 GPT 类模型的关键。

编码器不掩码

像 BERT 那样要“读懂整句”的编码器则不加掩码，每个词能看到全部上下文。