是什麼
模型量化(Quantization)是一種模型壓縮技術:把模型權重(以及有時連同激活值)從高精度數字格式——通常是 16 位或 32 位浮點——轉換成更低精度的格式,例如 8 位或 4 位整數。數字「分辨率」降低了,但模型的整體結構不變,於是體積更小、讀寫與計算更快。
為什麼重要
大模型的瓶頸往往不是算力而是顯存與內存帶寬:權重越大,越難塞進顯存、越拖慢推理。量化能把一個原本需要多張高端顯卡的模型壓到單卡、甚至消費級硬件上運行,是「讓大模型跑得起、跑得便宜」最直接的手段之一,也是開源模型能在本地廣泛部署的前提。
在 AI 產業鏈中的位置
量化是模型層的技術,卻直接作用在芯片與基礎設施層:它降低對顯存容量與高帶寬內存(HBM)的需求,把同樣的模型塞進更少、更便宜的硬件。向上,它讓應用層能以更低成本、更低延遲提供 AI 功能,並把模型推到端側設備。