混合專家 MoE · 百科 · 讀懂AI時代

是什麼

混合專家（Mixture of Experts，MoE）是一種大模型架構：把網絡的部分層拆成許多個並列的「專家」子網絡，再由一個「路由器」（router）為每個 token 只挑選其中少數幾個專家來計算。於是模型的「總參數量」可以做得非常大，但每次推理實際「激活」的參數只是其中一小部分——這被稱為稀疏激活。DeepSeek、Mixtral、通義千問等多個系列都採用了 MoE。

為什麼重要

MoE 的意義在於解耦了「模型容量」與「推理成本」。傳統稠密（Dense）模型參數越大、每次推理就越貴；MoE 讓模型可以擁有海量總參數（容納更多知識）卻只按激活參數付出算力，從而在同等推理成本下達到更高質量，或在同等質量下大幅降低成本。這也是近年開源旗艦模型能把價格不斷打低的技術原因之一。

與五層蛋糕的關係

MoE 是「模型」層的架構創新，直接改寫「芯片」與「基礎設施」層的賬：它降低單 token 的計算量，卻對顯存與高速互聯提出更高要求——眾多專家都要駐留顯存、並在多卡之間調度。向上，它讓「應用」層能用得起更大、更強的模型。

在大模型庫查

採用 MoE 的開源旗艦模型可在開源大模型切片裡找到；各模型的價格與上下文見大模型庫總表。

常見問題

MoE 模型的「總參數」和「激活參數」有什麼區別？

總參數是模型全部專家的參數量，決定知識容量；激活參數是單次推理實際參與計算的部分，決定算力成本。MoE 讓總參數遠大於激活參數。

MoE 一定比稠密模型好嗎？

不一定。MoE 在成本與質量的平衡上有優勢，但訓練更復雜、對顯存與多卡互聯要求高，部署門檻也更高；小規模場景稠密模型可能更簡單實用。

是什麼

為什麼重要

與五層蛋糕的關係

在大模型庫查

常見問題

參考來源

相關新聞

相關條目