是什麼

知識蒸餾(Knowledge Distillation)是一種模型壓縮技術:先有一個能力強但體量大的「教師」(teacher)模型,再訓練一個體量小得多的「學生」(student)模型去模仿教師的輸出——不只是最終答案,還包括概率分佈等「軟標籤」,從而把教師的知識「濃縮」進學生模型。

為什麼重要

旗艦大模型效果好卻昂貴、難以在本地或邊緣設備運行。蒸餾讓廠商可以發佈一個小很多、跑得起、卻保留大部分能力的版本,是「把模型做小做便宜」的核心手段之一。近年不少開源系列都會同時放出旗艦版與蒸餾版,正是為了覆蓋從雲端到本地的不同算力場景。

在 AI 產業鏈中的位置

蒸餾是模型層的技術,但它的意義在於改寫芯片與基礎設施層的賬單——更小的學生模型意味著更少的顯存佔用與推理算力。向上,它讓應用層能用更低的延遲與成本部署 AI 功能,甚至放進手機等終端設備。

在大模型庫查

蒸餾版小模型多見於開源權重系列,見開源大模型切片;不同規模模型的價格對比見大模型庫總表。