点词看注意力
Transformer(也就是当下大模型的核心)能读懂长句子,靠的是自注意力'':句子里的每个词,都会去看’‘其他词,再决定自己的含义。比如它''到底指谁?模型就是靠注意力把它’‘连回``小猫’‘的。点下面句子里的任意一个词,看看它在注意谁。
连线越粗、词底色越深,表示当前这个词对它的``注意力''越强。换``注意力头''能看到模型同时在用好几套不同的看法。
点不同的词试试 · 切换上方``注意力头''看不同模式
语义关联
把含义相关的词连起来,比如代词``它''连回``小猫''、``首都''连向``东京''。这是理解句子的关键。
相邻局部
主要关注左右挨着的词,负责把短语、搭配粘合在一起。
多个头并行
真实模型有很多个``头'',各看一种关系,合起来才读懂整句——这里只展示三种示意。