是什么

混合专家(Mixture of Experts,MoE)是一种大模型架构:把网络的部分层拆成许多个并列的「专家」子网络,再由一个「路由器」(router)为每个 token 只挑选其中少数几个专家来计算。于是模型的「总参数量」可以做得非常大,但每次推理实际「激活」的参数只是其中一小部分——这被称为稀疏激活。DeepSeek、Mixtral、通义千问等多个系列都采用了 MoE。

为什么重要

MoE 的意义在于解耦了「模型容量」与「推理成本」。传统稠密(Dense)模型参数越大、每次推理就越贵;MoE 让模型可以拥有海量总参数(容纳更多知识)却只按激活参数付出算力,从而在同等推理成本下达到更高质量,或在同等质量下大幅降低成本。这也是近年开源旗舰模型能把价格不断打低的技术原因之一。

与五层蛋糕的关系

MoE 是「模型」层的架构创新,直接改写「芯片」与「基础设施」层的账:它降低单 token 的计算量,却对显存与高速互联提出更高要求——众多专家都要驻留显存、并在多卡之间调度。向上,它让「应用」层能用得起更大、更强的模型。

在大模型库查

采用 MoE 的开源旗舰模型可在开源大模型切片里找到;各模型的价格与上下文见大模型库总表。