掩码语言模型（双向）

GPT 这类模型从左到右写字，预测下一个词时只能看左边（因果）。但还有另一种训练法：把句子里的某个词盖住，让模型同时看左右两边来猜它——这就是 BERT 用的掩码语言模型（MLM）。能看双向，理解就更全面：要填“坐在 ▢ 上晒太阳”，右边的“上晒太阳”是关键线索，只看左边的模型用不上。切换“双向 / 只看左”，看被盖住的词能借到哪些上下文、预测有多确定。

金色是被盖住的词 [MASK]，蓝色是模型能看到的上下文，蓝色弧线表示“注意力借用”。下面是模型对被盖词的预测——看看双向比只看左，确定多少。

—

盖词填空

随机盖住 15% 的词让模型猜，这是 BERT 的核心预训练任务。

双向理解

左右上下文一起看，对句意理解更充分，适合分类、抽取等理解类任务。

vs 因果生成

只看左的因果模型擅长“接着写”；双向的擅长“读懂”，两条路线各有所长。