知识蒸馏 Distillation · 百科

它们是用更大的旗舰模型作教师蒸馏出来的版本。例如一些推理模型会发布蒸馏版，让算力有限的设备也能本地运行。

是什么

知识蒸馏（Knowledge Distillation）是一种模型压缩技术：先有一个能力强但体量大的「教师」（teacher）模型，再训练一个体量小得多的「学生」（student）模型去模仿教师的输出——不只是最终答案，还包括概率分布等「软标签」，从而把教师的知识「浓缩」进学生模型。

旗舰大模型效果好却昂贵、难以在本地或边缘设备运行。蒸馏让厂商可以发布一个小很多、跑得起、却保留大部分能力的版本，是「把模型做小做便宜」的核心手段之一。近年不少开源系列都会同时放出旗舰版与蒸馏版，正是为了覆盖从云端到本地的不同算力场景。

蒸馏是模型层的技术，但它的意义在于改写芯片与基础设施层的账单——更小的学生模型意味着更少的显存占用与推理算力。向上，它让应用层能用更低的延迟与成本部署 AI 功能，甚至放进手机等终端设备。

蒸馏版小模型多见于开源权重系列，见开源大模型切片；不同规模模型的价格对比见大模型库总表。

常见问题

蒸馏出来的小模型能达到大模型的水平吗？

在特定任务上可以相当接近，但通常仍有差距，尤其是需要广泛知识或复杂推理时。蒸馏的价值在于用远低的成本，换取「够用」的能力。

蒸馏和微调是一回事吗？

不是。微调是让同一个模型更擅长某个任务；蒸馏是把一个大模型的能力「迁移」到另一个更小的模型上。两者可以结合使用。

为什么有些开源小模型名字里带「Distill」？