可视化资源

PCA 主成分分析

一堆高维数据,怎么用更少的维度概括它、又尽量不丢信息?主成分分析(PCA)的思路是:找出数据铺得最开的方向当作新坐标轴。第一主成分 PC1 是方差最大的方向,沿它投影就能用一个数最好地概括每个点;PC2 与它垂直,管次要的变化。拖动“数据走向”,看主成分轴怎样始终对准数据的延展方向。

蓝轴 PC1 指向数据最“长”的方向,金轴 PC2 与它垂直。蓝轴上的小点是各数据点投影下来的结果——这就是把二维“压”成一维。

控制

30°
0.32
PC1 解释了总变化的

越接近 100%,说明数据越“扁”,用一维(沿 PC1)概括就越不丢信息。

PC1 = 最大方差方向

数据沿哪个方向铺得最开,PC1 就指向哪——它由数据的协方差矩阵算出。

降维 = 沿主轴投影

只保留 PC1 这一维,就把二维数据压成一维,尽量少丢信息。

用处

高维数据可视化、去冗余、压缩、去噪——抓住主要的几个方向就够了。