混合专家 MoE · 百科 · 读懂AI时代

是什么

混合专家（Mixture of Experts，MoE）是一种大模型架构：把网络的部分层拆成许多个并列的「专家」子网络，再由一个「路由器」（router）为每个 token 只挑选其中少数几个专家来计算。于是模型的「总参数量」可以做得非常大，但每次推理实际「激活」的参数只是其中一小部分——这被称为稀疏激活。DeepSeek、Mixtral、通义千问等多个系列都采用了 MoE。

为什么重要

MoE 的意义在于解耦了「模型容量」与「推理成本」。传统稠密（Dense）模型参数越大、每次推理就越贵；MoE 让模型可以拥有海量总参数（容纳更多知识）却只按激活参数付出算力，从而在同等推理成本下达到更高质量，或在同等质量下大幅降低成本。这也是近年开源旗舰模型能把价格不断打低的技术原因之一。

与五层蛋糕的关系

MoE 是「模型」层的架构创新，直接改写「芯片」与「基础设施」层的账：它降低单 token 的计算量，却对显存与高速互联提出更高要求——众多专家都要驻留显存、并在多卡之间调度。向上，它让「应用」层能用得起更大、更强的模型。

在大模型库查

采用 MoE 的开源旗舰模型可在开源大模型切片里找到；各模型的价格与上下文见大模型库总表。

常见问题

MoE 模型的「总参数」和「激活参数」有什么区别？

总参数是模型全部专家的参数量，决定知识容量；激活参数是单次推理实际参与计算的部分，决定算力成本。MoE 让总参数远大于激活参数。

MoE 一定比稠密模型好吗？

不一定。MoE 在成本与质量的平衡上有优势，但训练更复杂、对显存与多卡互联要求高，部署门槛也更高；小规模场景稠密模型可能更简单实用。

是什么

为什么重要

与五层蛋糕的关系

在大模型库查

常见问题

参考来源

相关新闻

相关条目