模型量化 Quantization · 百科

是什么

模型量化（Quantization）是一种模型压缩技术：把模型权重（以及有时连同激活值）从高精度数字格式——通常是 16 位或 32 位浮点——转换成更低精度的格式，例如 8 位或 4 位整数。数字「分辨率」降低了，但模型的整体结构不变，于是体积更小、读写与计算更快。

大模型的瓶颈往往不是算力而是显存与内存带宽：权重越大，越难塞进显存、越拖慢推理。量化能把一个原本需要多张高端显卡的模型压到单卡、甚至消费级硬件上运行，是「让大模型跑得起、跑得便宜」最直接的手段之一，也是开源模型能在本地广泛部署的前提。

量化是模型层的技术，却直接作用在芯片与基础设施层：它降低对显存容量与高带宽内存（HBM）的需求，把同样的模型塞进更少、更便宜的硬件。向上，它让应用层能以更低成本、更低延迟提供 AI 功能，并把模型推到端侧设备。

可下载量化部署的主要是开源权重系列，见开源大模型切片；各模型的上下文窗口与 API 价格见大模型库总表。

常见问题

量化会让模型变笨吗？

会有一点精度损失，但 8 位量化通常几乎无感，4 位等更激进的量化在部分任务上才会出现可察觉的质量下降。是否可接受取决于具体任务与量化方法。

量化和蒸馏有什么区别？

蒸馏是另训练一个更小的模型；量化是不改变模型结构、只把同一个模型的数字精度降低。两者都用于压缩模型、降低部署成本，可以叠加使用。

为什么开源模型常见 GGUF、INT4 这类版本？

它们是不同量化格式或精度的发行版，目的是让模型能在显存有限的消费级显卡甚至 CPU 上跑起来。精度越低、体积越小、速度越快，但质量损失也越大。