知識蒸餾 Distillation · 百科

是什麼

知識蒸餾（Knowledge Distillation）是一種模型壓縮技術：先有一個能力強但體量大的「教師」（teacher）模型，再訓練一個體量小得多的「學生」（student）模型去模仿教師的輸出——不只是最終答案，還包括概率分佈等「軟標籤」，從而把教師的知識「濃縮」進學生模型。

旗艦大模型效果好卻昂貴、難以在本地或邊緣設備運行。蒸餾讓廠商可以發佈一個小很多、跑得起、卻保留大部分能力的版本，是「把模型做小做便宜」的核心手段之一。近年不少開源系列都會同時放出旗艦版與蒸餾版，正是為了覆蓋從雲端到本地的不同算力場景。

蒸餾是模型層的技術，但它的意義在於改寫芯片與基礎設施層的賬單——更小的學生模型意味著更少的顯存佔用與推理算力。向上，它讓應用層能用更低的延遲與成本部署 AI 功能，甚至放進手機等終端設備。

蒸餾版小模型多見於開源權重系列，見開源大模型切片；不同規模模型的價格對比見大模型庫總表。

常見問題

蒸餾出來的小模型能達到大模型的水平嗎？

在特定任務上可以相當接近，但通常仍有差距，尤其是需要廣泛知識或複雜推理時。蒸餾的價值在於用遠低的成本，換取「夠用」的能力。

蒸餾和微調是一回事嗎？

不是。微調是讓同一個模型更擅長某個任務；蒸餾是把一個大模型的能力「遷移」到另一個更小的模型上。兩者可以結合使用。

為什麼有些開源小模型名字裡帶「Distill」？

它們是用更大的旗艦模型作教師蒸餾出來的版本。例如一些推理模型會發布蒸餾版，讓算力有限的設備也能本地運行。