对比学习与 CLIP
怎么让模型同时看懂图和文字?CLIP 的办法出奇地简单:拿一大批配对的“图片+对应文字”,让模型把每张图和它自己的文字在表示空间里拉近,同时把图和别人的文字(同一批里其它的)推远。不需要人工标注类别,只要“这段文字配这张图”这种现成的配对。训练到位后,正确的图文对相似度最高,整张相似度矩阵的对角线会亮起来。点“训练”,看一团乱糟糟的相似度怎么收敛成一条金色对角线。
每行一张图、每列一段文字,格子颜色是“图配文”的相似度(越蓝越像)。我们要的:对角线(图配自己的文字)最亮,其余(配错的)最淡。
拉近正样本
每张图和它对应的文字,在表示空间里靠得越近越好。
推远负样本
同一批里其它不配对的图文,要被推开——这就是“对比”。
免标注、可零样本
只用现成图文对训练,之后能对没见过的类别直接做“图文匹配”分类。