是什麼

混合專家(Mixture of Experts,MoE)是一種大模型架構:把網絡的部分層拆成許多個並列的「專家」子網絡,再由一個「路由器」(router)為每個 token 只挑選其中少數幾個專家來計算。於是模型的「總參數量」可以做得非常大,但每次推理實際「激活」的參數只是其中一小部分——這被稱為稀疏激活。DeepSeek、Mixtral、通義千問等多個系列都採用了 MoE。

為什麼重要

MoE 的意義在於解耦了「模型容量」與「推理成本」。傳統稠密(Dense)模型參數越大、每次推理就越貴;MoE 讓模型可以擁有海量總參數(容納更多知識)卻只按激活參數付出算力,從而在同等推理成本下達到更高質量,或在同等質量下大幅降低成本。這也是近年開源旗艦模型能把價格不斷打低的技術原因之一。

與五層蛋糕的關係

MoE 是「模型」層的架構創新,直接改寫「芯片」與「基礎設施」層的賬:它降低單 token 的計算量,卻對顯存與高速互聯提出更高要求——眾多專家都要駐留顯存、並在多卡之間調度。向上,它讓「應用」層能用得起更大、更強的模型。

在大模型庫查

採用 MoE 的開源旗艦模型可在開源大模型切片裡找到;各模型的價格與上下文見大模型庫總表。