混合专家 MoE
大模型想变得更聪明,最直接的办法是堆更多参数——但参数一多,每次计算都很贵。混合专家(MoE)给出一个巧办法:准备一大堆“专家”子网络,但每个词进来时,由一个路由器只挑其中最相关的少数几个(比如 8 个里挑 2 个)来处理,其余的专家这次根本不参与计算。于是模型可以拥有海量参数(容量大),每次实际算的却只有一小部分(速度快)。DeepSeek、Mixtral 这些模型都用了它。点不同的词,看路由器把它派给谁。
点上面任意一个词,路由器会给 8 个专家打分(蓝条),只激活分数最高的 2 个(高亮+金标),其余 6 个保持休眠。不同的词通常被派给不同的专家。
↓ 路由器分配 ↓
路由器分配
一个小网络给每个词算出对各专家的“匹配分”,只选 top-k 个去处理这个词。
稀疏激活
每个词只用一小部分专家——参数总量很大,但单次计算量很小。
容量与速度兼得
用“更多参数但每次只用一点”换来更强能力而不显著变慢,是当下大模型的常见结构。