混合专家 MoE

大模型想变得更聪明，最直接的办法是堆更多参数——但参数一多，每次计算都很贵。混合专家（MoE）给出一个巧办法：准备一大堆“专家”子网络，但每个词进来时，由一个路由器只挑其中最相关的少数几个（比如 8 个里挑 2 个）来处理，其余的专家这次根本不参与计算。于是模型可以拥有海量参数（容量大），每次实际算的却只有一小部分（速度快）。DeepSeek、Mixtral 这些模型都用了它。点不同的词，看路由器把它派给谁。

点上面任意一个词，路由器会给 8 个专家打分（蓝条），只激活分数最高的 2 个（高亮+金标），其余 6 个保持休眠。不同的词通常被派给不同的专家。

↓ 路由器分配 ↓

路由器分配

一个小网络给每个词算出对各专家的“匹配分”，只选 top-k 个去处理这个词。

稀疏激活

每个词只用一小部分专家——参数总量很大，但单次计算量很小。

容量与速度兼得

用“更多参数但每次只用一点”换来更强能力而不显著变慢，是当下大模型的常见结构。