可视化资源

掩码语言模型(双向)

GPT 这类模型从左到右写字,预测下一个词时只能看左边(因果)。但还有另一种训练法:把句子里的某个词盖住,让模型同时看左右两边来猜它——这就是 BERT 用的掩码语言模型(MLM)。能看双向,理解就更全面:要填“坐在 ▢ 上 晒太阳”,右边的“上 晒太阳”是关键线索,只看左边的模型用不上。切换“双向 / 只看左”,看被盖住的词能借到哪些上下文、预测有多确定。

金色是被盖住的词 [MASK],蓝色是模型能看到的上下文,蓝色弧线表示“注意力借用”。下面是模型对被盖词的预测——看看双向比只看左,确定多少。

盖词填空

随机盖住 15% 的词让模型猜,这是 BERT 的核心预训练任务。

双向理解

左右上下文一起看,对句意理解更充分,适合分类、抽取等理解类任务。

vs 因果生成

只看左的因果模型擅长“接着写”;双向的擅长“读懂”,两条路线各有所长。