可视化资源

高斯混合与 EM

K-means 给每个点一个“硬”归属——非此即彼。但现实中两团数据常常交叠,边界上的点其实“两边都像”。高斯混合模型(GMM)用几个高斯分布来描述数据,给每个点一个归属:60% 属于这簇、40% 属于那簇。怎么训练它?用 EM 算法反复两步——E 步:按当前的高斯算出每个点对各簇的归属概率;M 步:再用这些概率加权,更新每个高斯的中心和胖瘦。来回几轮,高斯就贴合了数据。点“单步”看它怎么收敛,注意交界处的点是“混色”的。

每个点的颜色按它的软归属混合:越偏红越属于红簇、越偏蓝越属于蓝簇,交界处发紫表示两边各一半。两个椭圆是当前拟合的高斯(中心 + 范围)。

第 0 轮
软归属

每个点对各簇都有一个概率,加起来为 1——比 K-means 的“非此即彼”更细腻。

E 步 / M 步

E 步按当前高斯算归属概率,M 步用概率加权更新高斯,交替进行直到稳定。

能拟合椭圆簇

高斯可以有不同大小和形状,比 K-means 更适合疏密不均、形状不同的簇。