对比学习与 CLIP

怎么让模型同时看懂图和文字？CLIP 的办法出奇地简单：拿一大批配对的“图片+对应文字”，让模型把每张图和它自己的文字在表示空间里拉近，同时把图和别人的文字（同一批里其它的）推远。不需要人工标注类别，只要“这段文字配这张图”这种现成的配对。训练到位后，正确的图文对相似度最高，整张相似度矩阵的对角线会亮起来。点“训练”，看一团乱糟糟的相似度怎么收敛成一条金色对角线。

每行一张图、每列一段文字，格子颜色是“图配文”的相似度（越蓝越像）。我们要的：对角线（图配自己的文字）最亮，其余（配错的）最淡。

未训练

拉近正样本

每张图和它对应的文字，在表示空间里靠得越近越好。

推远负样本

同一批里其它不配对的图文，要被推开——这就是“对比”。

免标注、可零样本

只用现成图文对训练，之后能对没见过的类别直接做“图文匹配”分类。