点词看注意力

Transformer（也就是当下大模型的核心）能读懂长句子，靠的是“自注意力”：句子里的每个词，都会去“看”其他词，再决定自己的含义。比如“它”到底指谁？模型就是靠注意力把“它”连回“小猫”的。点下面句子里的任意一个词，看看它在注意谁。

连线越粗、词底色越深，表示当前这个词对它的“注意力”越强。换“注意力头”能看到模型同时在用好几套不同的看法。

例句

点不同的词试试 · 切换上方“注意力头”看不同模式

语义关联

把含义相关的词连起来，比如代词“它”连回“小猫”、“首都”连向“东京”。这是理解句子的关键。

相邻局部

主要关注左右挨着的词，负责把短语、搭配粘合在一起。

多个头并行

真实模型有很多个“头”,各看一种关系，合起来才读懂整句——这里只展示三种示意。