高斯混合与 EM

K-means 给每个点一个“硬”归属——非此即彼。但现实中两团数据常常交叠，边界上的点其实“两边都像”。高斯混合模型（GMM）用几个高斯分布来描述数据，给每个点一个软归属：60% 属于这簇、40% 属于那簇。怎么训练它？用 EM 算法反复两步——E 步：按当前的高斯算出每个点对各簇的归属概率；M 步：再用这些概率加权，更新每个高斯的中心和胖瘦。来回几轮，高斯就贴合了数据。点“单步”看它怎么收敛，注意交界处的点是“混色”的。

每个点的颜色按它的软归属混合：越偏红越属于红簇、越偏蓝越属于蓝簇，交界处发紫表示两边各一半。两个椭圆是当前拟合的高斯（中心 + 范围）。

第 0 轮

软归属

每个点对各簇都有一个概率，加起来为 1——比 K-means 的“非此即彼”更细腻。

E 步 / M 步

E 步按当前高斯算归属概率，M 步用概率加权更新高斯，交替进行直到稳定。

能拟合椭圆簇

高斯可以有不同大小和形状，比 K-means 更适合疏密不均、形状不同的簇。