模型量化 Quantization · 百科

是什麼

模型量化（Quantization）是一種模型壓縮技術：把模型權重（以及有時連同激活值）從高精度數字格式——通常是 16 位或 32 位浮點——轉換成更低精度的格式，例如 8 位或 4 位整數。數字「分辨率」降低了，但模型的整體結構不變，於是體積更小、讀寫與計算更快。

大模型的瓶頸往往不是算力而是顯存與內存帶寬：權重越大，越難塞進顯存、越拖慢推理。量化能把一個原本需要多張高端顯卡的模型壓到單卡、甚至消費級硬件上運行，是「讓大模型跑得起、跑得便宜」最直接的手段之一，也是開源模型能在本地廣泛部署的前提。

量化是模型層的技術，卻直接作用在芯片與基礎設施層：它降低對顯存容量與高帶寬內存（HBM）的需求，把同樣的模型塞進更少、更便宜的硬件。向上，它讓應用層能以更低成本、更低延遲提供 AI 功能，並把模型推到端側設備。

可下載量化部署的主要是開源權重系列，見開源大模型切片；各模型的上下文窗口與 API 價格見大模型庫總表。

常見問題

量化會讓模型變笨嗎？

會有一點精度損失，但 8 位量化通常幾乎無感，4 位等更激進的量化在部分任務上才會出現可察覺的質量下降。是否可接受取決於具體任務與量化方法。

量化和蒸餾有什麼區別？

蒸餾是另訓練一個更小的模型；量化是不改變模型結構、只把同一個模型的數字精度降低。兩者都用於壓縮模型、降低部署成本，可以疊加使用。

為什麼開源模型常見 GGUF、INT4 這類版本？

它們是不同量化格式或精度的發行版，目的是讓模型能在顯存有限的消費級顯卡甚至 CPU 上跑起來。精度越低、體積越小、速度越快，但質量損失也越大。