是什么
知识蒸馏(Knowledge Distillation)是一种模型压缩技术:先有一个能力强但体量大的「教师」(teacher)模型,再训练一个体量小得多的「学生」(student)模型去模仿教师的输出——不只是最终答案,还包括概率分布等「软标签」,从而把教师的知识「浓缩」进学生模型。
为什么重要
旗舰大模型效果好却昂贵、难以在本地或边缘设备运行。蒸馏让厂商可以发布一个小很多、跑得起、却保留大部分能力的版本,是「把模型做小做便宜」的核心手段之一。近年不少开源系列都会同时放出旗舰版与蒸馏版,正是为了覆盖从云端到本地的不同算力场景。
在 AI 产业链中的位置
蒸馏是模型层的技术,但它的意义在于改写芯片与基础设施层的账单——更小的学生模型意味着更少的显存占用与推理算力。向上,它让应用层能用更低的延迟与成本部署 AI 功能,甚至放进手机等终端设备。