多头注意力
一个注意力“头”只能看一种关系;Transformer 干脆并排放好几个头,让它们各看各的——有的盯着相邻的词把短语黏起来,有的负责把代词连回它指的东西,有的让大家都参照句子开头。每个头单独看都偏科,合起来才把整句话读明白。下面三个头并排,读同一句话,看它们关注的模式有多不一样。
每个方阵是一个头的注意力:行 = 哪个词在看,列 = 它看向谁,格子越深表示越关注。同一句话,三个头给出完全不同的“看法”。
把鼠标放到格子上可看具体权重。三个头都是“行内归一化”——每一行加起来是 100%。
真实模型一层有几十个头,并行算完后拼接、再融合。这种“分工 + 合议”让一层就能同时捕捉语法、指代、语序等多种关系——这是 Transformer 强大的关键之一。
相邻局部
主要看左右挨着的词,负责把短语、搭配黏合起来。
语义/指代
把含义相关的词连起来,比如“它”连回“小猫”。
句首锚点
让大多数词都参照句子开头——真实模型里常见的一种模式。