VAE 的潜空间
变分自编码器(VAE)把一张图压成几个数字(叫潜变量),再从这几个数字解码还原。神奇的是:它学出的这个低维潜空间是连续而有意义的——你在里面平移一点点,解码出的图也只变一点点;不同方向往往对应不同的语义属性(比如表情、胖瘦)。所以从潜空间随便取一个点解码,就能“生成”一张全新的、却很自然的图。下面把潜空间简化成 2 维:拖动 z₁、z₂,看右边的脸连续变形;背景网格是潜空间各处解码出的“脸的地图”。
左边是 2 维潜空间(横轴 z₁ 控制嘴型、纵轴 z₂ 控制眼睛与气色),金点是当前位置。右边是该点解码出的脸。注意:相邻的点解码出的脸也相近——潜空间是“平滑”的。
压成几个数
编码器把高维图压进低维潜变量,解码器再还原——逼模型抓住要点。
平滑潜空间
VAE 的训练让潜空间连续规整,移动一点、图变一点,不会突变。
采样即生成
在潜空间任取一点解码,就得到一张全新但自然的图——这就是生成。