词向量类比
模型把每个词变成一串数字(一个向量''),相近意思的词靠得近。神奇的是,这些向量还藏着关系’‘:国王''减去男人’‘、再加上女人'',结果竟然正好落在王后’‘附近——因为性别''这层关系,在向量空间里是一个固定的方向。下面用二维示意图看看这种词向量算术’‘。
真实词向量有几百维,这里压成二维示意。选一个类比``A 之于 B,正如 C 之于 ?'',看蓝色关系箭头被平移到 C 上,金点落在哪个词附近。
关系 = 方向
``男→女''和``国王→王后''是同一个方向、同一段位移——性别这层意思被编码成了一个向量。
词向量算术
B − A + C 把``A→B''的关系搬到 C 上,落点附近的词就是类比的答案。
怎么来的
这些向量不是人工设定,而是模型读海量文本、根据上下文自动学出来的。