多头注意力

一个注意力“头”只能看一种关系；Transformer 干脆并排放好几个头，让它们各看各的——有的盯着相邻的词把短语黏起来，有的负责把代词连回它指的东西，有的让大家都参照句子开头。每个头单独看都偏科，合起来才把整句话读明白。下面三个头并排，读同一句话，看它们关注的模式有多不一样。

每个方阵是一个头的注意力：行 = 哪个词在看，列 = 它看向谁，格子越深表示越关注。同一句话，三个头给出完全不同的“看法”。

把鼠标放到格子上可看具体权重。三个头都是“行内归一化”——每一行加起来是 100%。

真实模型一层有几十个头，并行算完后拼接、再融合。这种“分工 + 合议”让一层就能同时捕捉语法、指代、语序等多种关系——这是 Transformer 强大的关键之一。

相邻局部

主要看左右挨着的词，负责把短语、搭配黏合起来。

语义/指代

把含义相关的词连起来，比如“它”连回“小猫”。

句首锚点

让大多数词都参照句子开头——真实模型里常见的一种模式。